هوش مصنوعی

مدل زبانی نوین اپل قادر است متون طولانی را با سرعتی بی‌نظیر خلق کند

مدل زبانی نوین اپل با اتکا به یک معماری پیشرفته، توانایی تولید متن‌های طولانی و پیچیده را با سرعت فوق‌العاده و دقت بالا دارد. طبق گزارش‌های منتشرشده، تیم تحقیقاتی این شرکت یک مدل مبتنی بر Diffusion را معرفی نموده که قادر است متن‌ها را با سرعتی تا 128 برابر بیشتر از مدل‌های مشابه خود تولید کند.

مدل‌های زبانی بزرگی مانند ChatGPT از نوع Autoregressive می‌باشند؛ این خورنده‌ها متنی را به‌طور توکن به توکن و به ترتیب تولید می‌کنند و هر توکن را با توجه به ورودی کاربر و تمامی توکن‌های قبلی شکل می‌دهند.

مدل زبانی جدید اپل از سرعت بسیار بالایی برخوردار است

از سوی دیگر، مدل‌های Diffusion می‌توانند چند توکن را به‌طور همزمان تولید کرده و در چند مرحله به اصلاح آن‌ها بپردازند تا پاسخ نهایی شکل گیرد. یکی از انواع پیشرفته این مدل‌ها، Flow-matching نام دارد که به دنبال حذف مراحل اصلاح چندگانه و دستیابی به نتیجه نهایی در یک مرحله است.

تحقیق جدید اپل تحت عنوان «FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models» مدلی جدید به نام Few-Step Discrete Flow-Matching (FS-DFM) را معرفی می‌کند. این مدل قادر است متن‌های طولانی را تنها با هشت مرحله اصلاح با سرعت بالایی تولید کند، در حالی که مدل‌های Diffusion معمولی به بیش از هزار مرحله نیاز دارند تا کیفیتی مشابه ارائه دهند.

برای دستیابی به این سرعت، پژوهشگران روش‌هایی را به کار گرفته‌اند: ابتدا مدل را آموزش می‌دهند تا بتواند چندین مرحله اصلاح متن را مدیریت کند، سپس از یک مدل «معلم» برای انجام به‌روزرسانی‌های دقیق و بزرگ‌تر در هر مرحله استفاده می‌شود و در نهایت، نحوه اجرای هر مرحله بهینه می‌گردد تا مدل بتواند با تعداد مراحل کمتر و پایداری بیشتر به نتیجه مطلوب برسد.

در مقایسه با مدل‌های بزرگ مشابه، FS-DFM در معیارهای «آنتروپی» و «سردرگمی» عملکردی درخشان از خود به نمایش گذاشته است. سردرگمی به اندازه‌گیری کیفیت متن پرداخته و هرچه عدد آن پایین‌تر باشد، متن تولیدی طبیعی‌تر و دقیق‌تر خواهد بود. آنتروپی نیز نشان‌دهنده سطح اطمینان مدل در هر کلمه است؛ مقدار پایین نشان‌دهنده تکراری بودن یا پیش‌بینی‌پذیری متن است و مقدار بالا به ایجاد متنی نامنظم و تصادفی منجر می‌شود.

مدل FS-DFM با پارامترهای 1.7، 1.3 و 0.17 میلیارد نسبت به مدل‌های Dream و LLaDA با 7 و 8 میلیارد پارامتر، در معیار سردرگمی عددی پایین‌تری و در آنتروپی عملکردی پایدارتر به‌دست آورده است.

با توجه به عملکرد برجسته و کمیاب بودن مدل‌های مشابه، پژوهشگران اعلام کرده‌اند که قصد دارند کد و چک‌پوینت‌های این مدل را منتشر کنند تا بستر تحقیقاتی و بازتولید آن امکان‌پذیر گردد. مطالعه کامل مقاله در arXiv شامل نمونه‌های عملی و نمودارهایی است که مراحل اصلاح هر توکن و تغییرات آن را تجسم می‌کند.

مقالات مرتبط

دکمه بازگشت به بالا