مدل زبانی نوین اپل قادر است متون طولانی را با سرعتی بینظیر خلق کند

مدل زبانی نوین اپل با اتکا به یک معماری پیشرفته، توانایی تولید متنهای طولانی و پیچیده را با سرعت فوقالعاده و دقت بالا دارد. طبق گزارشهای منتشرشده، تیم تحقیقاتی این شرکت یک مدل مبتنی بر Diffusion را معرفی نموده که قادر است متنها را با سرعتی تا 128 برابر بیشتر از مدلهای مشابه خود تولید کند.
مدلهای زبانی بزرگی مانند ChatGPT از نوع Autoregressive میباشند؛ این خورندهها متنی را بهطور توکن به توکن و به ترتیب تولید میکنند و هر توکن را با توجه به ورودی کاربر و تمامی توکنهای قبلی شکل میدهند.
مدل زبانی جدید اپل از سرعت بسیار بالایی برخوردار است
از سوی دیگر، مدلهای Diffusion میتوانند چند توکن را بهطور همزمان تولید کرده و در چند مرحله به اصلاح آنها بپردازند تا پاسخ نهایی شکل گیرد. یکی از انواع پیشرفته این مدلها، Flow-matching نام دارد که به دنبال حذف مراحل اصلاح چندگانه و دستیابی به نتیجه نهایی در یک مرحله است.
تحقیق جدید اپل تحت عنوان «FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models» مدلی جدید به نام Few-Step Discrete Flow-Matching (FS-DFM) را معرفی میکند. این مدل قادر است متنهای طولانی را تنها با هشت مرحله اصلاح با سرعت بالایی تولید کند، در حالی که مدلهای Diffusion معمولی به بیش از هزار مرحله نیاز دارند تا کیفیتی مشابه ارائه دهند.
برای دستیابی به این سرعت، پژوهشگران روشهایی را به کار گرفتهاند: ابتدا مدل را آموزش میدهند تا بتواند چندین مرحله اصلاح متن را مدیریت کند، سپس از یک مدل «معلم» برای انجام بهروزرسانیهای دقیق و بزرگتر در هر مرحله استفاده میشود و در نهایت، نحوه اجرای هر مرحله بهینه میگردد تا مدل بتواند با تعداد مراحل کمتر و پایداری بیشتر به نتیجه مطلوب برسد.
در مقایسه با مدلهای بزرگ مشابه، FS-DFM در معیارهای «آنتروپی» و «سردرگمی» عملکردی درخشان از خود به نمایش گذاشته است. سردرگمی به اندازهگیری کیفیت متن پرداخته و هرچه عدد آن پایینتر باشد، متن تولیدی طبیعیتر و دقیقتر خواهد بود. آنتروپی نیز نشاندهنده سطح اطمینان مدل در هر کلمه است؛ مقدار پایین نشاندهنده تکراری بودن یا پیشبینیپذیری متن است و مقدار بالا به ایجاد متنی نامنظم و تصادفی منجر میشود.
مدل FS-DFM با پارامترهای 1.7، 1.3 و 0.17 میلیارد نسبت به مدلهای Dream و LLaDA با 7 و 8 میلیارد پارامتر، در معیار سردرگمی عددی پایینتری و در آنتروپی عملکردی پایدارتر بهدست آورده است.
با توجه به عملکرد برجسته و کمیاب بودن مدلهای مشابه، پژوهشگران اعلام کردهاند که قصد دارند کد و چکپوینتهای این مدل را منتشر کنند تا بستر تحقیقاتی و بازتولید آن امکانپذیر گردد. مطالعه کامل مقاله در arXiv شامل نمونههای عملی و نمودارهایی است که مراحل اصلاح هر توکن و تغییرات آن را تجسم میکند.




