اپل یک مدل جدید و جذاب هوش مصنوعی برای برنامهنویسی معرفی کرد

اپل به تازگی یک مدل جدید هوش مصنوعی به نام DiffuCode-7B-cpGRPO را بر بستر پلتفرم Hugging Face برای تولید کد معرفی کرده است. این مدل بهواسطه رویکردی منحصر به فرد، از الگوی تولید متوالی متن دوری میکند. DiffuCode-7B-cpGRPO نهتنها توانایی تولید کد را با سرعت بالاتری داراست، بلکه قادر است همزمان چندین بخش از کد را بهبود بخشد و ساختاری یکپارچه و رقابتی ایجاد کند که با بهترین مدلهای متنباز قابل مقایسه است.
توسعه مدل DiffuCode-7B-cpGRPO بر مبنای مقالهای با عنوان DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation صورت گرفته است. ویژگی جالب این مدل این است که با تنظیم دما، میتواند بین حالاتی چون خودبازگشتی و غیرترتیبی جابجا شود. وقتی دما بالا باشد، آزادی بیشتری در ترتیب تولید توکنها وجود دارد که اجازه میدهد بخشهای مختلف کد به شیوهای غیرخطی تولید شوند.
قابلیتهای مدل اپل
بهعلاوه، اپل توانسته با معرفی یک مرحله آموزشی به نام coupled-GRPO، کیفیت تولید کد این مدل را به شکل محسوسی بهبود بخشد. بهطور کلی، DiffuCode-7B-cpGRPO مدلی است که از سرعت بالا، انسجام ساختاری مطلوب و عملکردی قابل قبول در برابر بهترین مدلهای متنباز برخوردار است.
جالبتوجهتر آنکه این مدل بر اساس Qwen2.5-7B توسعه یافته که یک مدل منبع باز است و توسط علیبابا طراحی شده است. علیبابا ابتدا این مدل را با هدف بهینهسازی تولید کد (با نام Qwen2.5‑Coder‑7B) رونمایی کرد و سپس اپل نسخه مخصوص خود را بر پایه آن توسعه و مجدداً آموزش داده است.
اپل این مدل جدید را با استفاده از یک رمزگشا (Decoder) مبتنی بر انتشار طراحی کرده و سپس با بیش از 20 هزار نمونه کدنویسی با کیفیت، آموزش داده است. این فرایند به بهبود عملکرد مدل به میزان 4.4 درصد در یک بنچمارک معتبر برنامهنویسی انجامیده است.
مدلهای زبانی متعارف مانند GPT معمولاً از روش خودبازگشتی بهره میبرند. در این شیوه، مدل پاسخ را به صورت توکن به توکن و به ترتیب، از چپ به راست تولید میکند. هر توکن جدید براساس بازپردازش تمام ورودیها و توکنهای قبلی پیشبینی میشود.
در مدلهای زبانی، پارامتر «دما» بر میزان تصادفی بودن پاسخ تأثیر میگذارد. دمای پایین باعث میشود مدل محتملترین گزینهها را کند، در حالی که دماهایی بالاتر به مدل این امکان را میدهند تا گزینههای کمتر محتمل را مورد توجه قرار دهد.
در بخشی دیگر، مدلهای انتشاری (که در تولید تصاویر مانند Stable Diffusion بهکار میروند) روندی را طی میکنند که از یک ورودی با نویز آغاز شده و آن را گام به گام به خروجی مورد نظر تبدیل میکنند. این تکنیک به تازگی در زمینه تولید متن آزمایش شده و نتایج امیدوارکنندهای را به همراه داشته است.
مزیت اصلی این رویکرد در تولید کد این است که مدل میتواند بهجای تولید خطی، ساختار کلی کد را در مراحل مختلف و به صورت موازی پیشرفت دهد، قابلیت بسیار مفیدی در زمینه برنامهنویسی.
با وجود اینکه DiffuCoder هنوز به سطح مدلهای پیشرفتهای همچون GPT-4 یا Gemini Diffusion نرسیده است، اما این پیشرفت نشاندهنده عزم جدی اپل برای مداخله مؤثر در عرصه هوش مصنوعی مولد به شمار میرود. شرکت اپل با رویکردهای نوآورانه و متفاوت، در حال شکلدهی به نسل آینده مدلهای زبانی است.
آینده محصولاتی که این مدلها در اپل خواهند داشت، هنوز مشخص نیست؛ اما واضح است که اپل بهطرز موزونی و با دقت، به سمت یک آینده نوآورانه در حوزه هوش مصنوعی در حال حرکت است.




