هوش مصنوعی

نوآوری جدید انویدیا برای افزایش سرعت و کارایی هوش مصنوعی رونمایی شد

انویدیا از رویکردی به نام «هلیکس پاراللیسم» (Helix Parallelism) رونمایی کرده است که این امکان را به مدل‌های هوش مصنوعی می‌دهد تا به طور همزمان حجم بالایی از داده‌ها را پردازش کرده و به ۳۲ برابر بیشتر از کاربران، با همان سرعت پاسخ دهند. این نوآوری به‌طور خاص برای معماری پردازنده‌های گرافیکی نوین بلک‌ول (Blackwell) طراحی گردیده است.

با افزایش ابعاد و پیچیدگی مدل‌های هوش مصنوعی، یکی از مسائل اصلی آنها توانایی مدیریت و پردازش حجم عظیمی از اطلاعات زمینه (Context) در حین تولید پاسخ‌های فوری است. حالا انویدیا با معرفی Helix Parallelism پاسخی برای این چالش ارائه کرده است.

آشنایی با فناوری Helix شرکت انویدیا

مدل‌های زبان بزرگ برای تولید هر کلمه جدید با دو چالش کلیدی مواجه هستند:

  1. آنها ملزم به اسکن دائمی تمام تاریخچه مکالمه (که در حافظه‌ای به نام KV Cache ذخیره می‌شود) هستند، و این فرآیند به شدت بر پهنای باند حافظه پردازنده گرافیکی (GPU) فشار می‌آورد.
  2. در عین حال، برای تحلیل هر کلمه، باید وزن‌های فراوان «شبکه عصبی پیشخور» (FFN) از حافظه بارگذاری شوند، که به کندی و افزایش زمان تأخیر، به‌ویژه در مواردی که نیاز به پاسخگویی آنی و زنده مانند چت‌بات‌ها وجود دارد، منجر می‌شود.

فناوری هلیکس با به‌کارگیری یک رویکرد هوشمندانه، این دو فرایند را به طور جداگانه و بهینه مدیریت می‌کند:

  • موازی‌سازی KV: در گام اول، هلیکس به جای کپی‌کردن کل حافظه مکالمه (KV Cache) بر روی تمام GPUها، آن را به طور هوشمندانه بین پردازنده‌های مختلف تقسیم می‌نماید. این اقدام مانع از تکرار بیهوده داده‌ها شده و فشار وارد بر حافظه را به طور قابل توجهی کاهش می‌دهد.
  • استفاده مجدد از منابع: در مرحله بعد، همان GPUها به سرعت به تغییر وظیفه پرداخته و با بهره‌گیری از روش «موازی‌سازی تنسوری» (TP) به پردازش لایه FFN می‌پردازند. این جابه‌جایی هوشمندانه موجب می‌گردد تا پردازنده‌ها همیشه فعال باقی بمانند و زمان‌های بیکاری را به حداقل برسانند.

<pاین فرایند پیچیده به لطف فناوری‌های اتصالات پرسرعت انویدیا همچون NVLink و NVL72 و همچنین روشی به نام HOP-B قابل انجام شده است.

نتایج شبیه‌سازی‌ها با مدل زبان بزرگ، قابلیت فوق‌العاده این فناوری را به نمایش گذاشته است؛ هلیکس قادر است با حفظ همان سطح سرعت و تأخیر، به ۳۲ برابر کاربران بیشتر به‌طور همزمان خدمت‌رسانی نماید. همچنین در شرایط بار کاری کمتر، زمان پاسخگویی (فاصله زمانی بین تولید هر کلمه) تا ۱.۵ برابر کاهش پیدا می‌کند.

این پیشرفت به این معناست که دستیارهای مجازی و چت‌بات‌های هوش مصنوعی قادرند میلیون‌ها کلمه اطلاعات را به صورت آنی پردازش کرده و همزمان سرعت و کیفیت پاسخگویی خود را در تعامل با کاربران حفظ نمایند.

مقالات مرتبط

دکمه بازگشت به بالا