نوآوری جدید انویدیا برای افزایش سرعت و کارایی هوش مصنوعی رونمایی شد
انویدیا از رویکردی به نام «هلیکس پاراللیسم» (Helix Parallelism) رونمایی کرده است که این امکان را به مدلهای هوش مصنوعی میدهد تا به طور همزمان حجم بالایی از دادهها را پردازش کرده و به ۳۲ برابر بیشتر از کاربران، با همان سرعت پاسخ دهند. این نوآوری بهطور خاص برای معماری پردازندههای گرافیکی نوین بلکول (Blackwell) طراحی گردیده است.
با افزایش ابعاد و پیچیدگی مدلهای هوش مصنوعی، یکی از مسائل اصلی آنها توانایی مدیریت و پردازش حجم عظیمی از اطلاعات زمینه (Context) در حین تولید پاسخهای فوری است. حالا انویدیا با معرفی Helix Parallelism پاسخی برای این چالش ارائه کرده است.
آشنایی با فناوری Helix شرکت انویدیا
مدلهای زبان بزرگ برای تولید هر کلمه جدید با دو چالش کلیدی مواجه هستند:
- آنها ملزم به اسکن دائمی تمام تاریخچه مکالمه (که در حافظهای به نام KV Cache ذخیره میشود) هستند، و این فرآیند به شدت بر پهنای باند حافظه پردازنده گرافیکی (GPU) فشار میآورد.
- در عین حال، برای تحلیل هر کلمه، باید وزنهای فراوان «شبکه عصبی پیشخور» (FFN) از حافظه بارگذاری شوند، که به کندی و افزایش زمان تأخیر، بهویژه در مواردی که نیاز به پاسخگویی آنی و زنده مانند چتباتها وجود دارد، منجر میشود.
فناوری هلیکس با بهکارگیری یک رویکرد هوشمندانه، این دو فرایند را به طور جداگانه و بهینه مدیریت میکند:
- موازیسازی KV: در گام اول، هلیکس به جای کپیکردن کل حافظه مکالمه (KV Cache) بر روی تمام GPUها، آن را به طور هوشمندانه بین پردازندههای مختلف تقسیم مینماید. این اقدام مانع از تکرار بیهوده دادهها شده و فشار وارد بر حافظه را به طور قابل توجهی کاهش میدهد.
- استفاده مجدد از منابع: در مرحله بعد، همان GPUها به سرعت به تغییر وظیفه پرداخته و با بهرهگیری از روش «موازیسازی تنسوری» (TP) به پردازش لایه FFN میپردازند. این جابهجایی هوشمندانه موجب میگردد تا پردازندهها همیشه فعال باقی بمانند و زمانهای بیکاری را به حداقل برسانند.
<pاین فرایند پیچیده به لطف فناوریهای اتصالات پرسرعت انویدیا همچون NVLink و NVL72 و همچنین روشی به نام HOP-B قابل انجام شده است.
نتایج شبیهسازیها با مدل زبان بزرگ، قابلیت فوقالعاده این فناوری را به نمایش گذاشته است؛ هلیکس قادر است با حفظ همان سطح سرعت و تأخیر، به ۳۲ برابر کاربران بیشتر بهطور همزمان خدمترسانی نماید. همچنین در شرایط بار کاری کمتر، زمان پاسخگویی (فاصله زمانی بین تولید هر کلمه) تا ۱.۵ برابر کاهش پیدا میکند.
این پیشرفت به این معناست که دستیارهای مجازی و چتباتهای هوش مصنوعی قادرند میلیونها کلمه اطلاعات را به صورت آنی پردازش کرده و همزمان سرعت و کیفیت پاسخگویی خود را در تعامل با کاربران حفظ نمایند.