هوش مصنوعی

اپل یک مدل جدید و جذاب هوش مصنوعی برای برنامه‌نویسی معرفی کرد

اپل به تازگی یک مدل جدید هوش مصنوعی به نام DiffuCode-7B-cpGRPO را بر بستر پلتفرم Hugging Face برای تولید کد معرفی کرده است. این مدل به‌واسطه رویکردی منحصر به فرد، از الگوی تولید متوالی متن دوری می‌کند. DiffuCode-7B-cpGRPO نه‌تنها توانایی تولید کد را با سرعت بالاتری داراست، بلکه قادر است هم‌زمان چندین بخش از کد را بهبود بخشد و ساختاری یکپارچه و رقابتی ایجاد کند که با بهترین مدل‌های متن‌باز قابل مقایسه است.

توسعه مدل DiffuCode-7B-cpGRPO بر مبنای مقاله‌ای با عنوان DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation صورت گرفته است. ویژگی جالب این مدل این است که با تنظیم دما، می‌تواند بین حالاتی چون خودبازگشتی و غیرترتیبی جابجا شود. وقتی دما بالا باشد، آزادی بیشتری در ترتیب تولید توکن‌ها وجود دارد که اجازه می‌دهد بخش‌های مختلف کد به شیوه‌ای غیرخطی تولید شوند.

قابلیت‌های مدل اپل

به‌علاوه، اپل توانسته با معرفی یک مرحله آموزشی به نام coupled-GRPO، کیفیت تولید کد این مدل را به شکل محسوسی بهبود بخشد. به‌طور کلی، DiffuCode-7B-cpGRPO مدلی است که از سرعت بالا، انسجام ساختاری مطلوب و عملکردی قابل قبول در برابر بهترین مدل‌های متن‌باز برخوردار است.

جالب‌توجه‌تر آنکه این مدل بر اساس Qwen2.5-7B توسعه یافته که یک مدل منبع باز است و توسط علی‌بابا طراحی شده است. علی‌بابا ابتدا این مدل را با هدف بهینه‌سازی تولید کد (با نام Qwen2.5‑Coder‑7B) رونمایی کرد و سپس اپل نسخه مخصوص خود را بر پایه آن توسعه و مجدداً آموزش داده است.

اپل این مدل جدید را با استفاده از یک رمزگشا (Decoder) مبتنی بر انتشار طراحی کرده و سپس با بیش از 20 هزار نمونه کدنویسی با کیفیت، آموزش داده است. این فرایند به بهبود عملکرد مدل به میزان 4.4 درصد در یک بنچمارک معتبر برنامه‌نویسی انجامیده است.

مدل‌های زبانی متعارف مانند GPT معمولاً از روش خودبازگشتی بهره می‌برند. در این شیوه، مدل پاسخ را به صورت توکن به توکن و به ترتیب، از چپ به راست تولید می‌کند. هر توکن جدید براساس بازپردازش تمام ورودی‌ها و توکن‌های قبلی پیش‌بینی می‌شود.

در مدل‌های زبانی، پارامتر «دما» بر میزان تصادفی بودن پاسخ تأثیر می‌گذارد. دمای پایین باعث می‌شود مدل محتمل‌ترین گزینه‌ها را کند، در حالی که دماهایی بالاتر به مدل این امکان را می‌دهند تا گزینه‌های کمتر محتمل را مورد توجه قرار دهد.

در بخشی دیگر، مدل‌های انتشاری (که در تولید تصاویر مانند Stable Diffusion به‌کار می‌روند) روندی را طی می‌کنند که از یک ورودی با نویز آغاز شده و آن را گام به گام به خروجی مورد نظر تبدیل می‌کنند. این تکنیک به تازگی در زمینه تولید متن آزمایش شده و نتایج امیدوارکننده‌ای را به همراه داشته است.

مزیت اصلی این رویکرد در تولید کد این است که مدل می‌تواند به‌جای تولید خطی، ساختار کلی کد را در مراحل مختلف و به صورت موازی پیشرفت دهد، قابلیت بسیار مفیدی در زمینه برنامه‌نویسی.

با وجود اینکه DiffuCoder هنوز به سطح مدل‌های پیشرفته‌ای همچون GPT-4 یا Gemini Diffusion نرسیده است، اما این پیشرفت نشان‌دهنده عزم جدی اپل برای مداخله مؤثر در عرصه هوش مصنوعی مولد به شمار می‌رود. شرکت اپل با رویکردهای نوآورانه و متفاوت، در حال شکل‌دهی به نسل آینده مدل‌های زبانی است.

آینده محصولاتی که این مدل‌ها در اپل خواهند داشت، هنوز مشخص نیست؛ اما واضح است که اپل به‌طرز موزونی و با دقت، به سمت یک آینده نوآورانه در حوزه هوش مصنوعی در حال حرکت است.

مقالات مرتبط

دکمه بازگشت به بالا