جزئیات پلتفرم Blackwell انویدیا برای هوش مصنوعی مشخص شد

شهریور 6, 1403اخرین به روز رسانی: اردیبهشت 18, 1404

0 4 دقیقه خوانده شد

جزئیات پلتفرم Blackwell انویدیا برای هوش مصنوعی مشخص شد

به تازگی جزئیات پلتفرم Blackwell انویدیا منتشر شده و پهنای باند جدیدی به نام NVHBI برای اتصال دو کارت گرافیک همزمان معرفی شده است.

هفته گذشته، انویدیا اعلام کرد که اطلاعات بیشتری درمورد پلتفرم بلک ول هوش مصنوعی خود ارائه خواهد داد و اولین تصاویر از بلک ول را در حال کار در دیتاسنترها به نمایش گذاشت. امروز، این شرکت جزئیات جدیدی در مورد کل پلتفرم بلک ول ارائه کرد که تنها شامل یک چیپ نمی شود بلکه از چندین محصول مختلف تشکیل شده است.

کل پلتفرم بلک ول انویدیا با بیش از 400 کتابخانه “بهینه سازی شده” CUDAX که حداکثر عملکرد را بر روی چیپ های بلک ول ارائه می دهند، قدرت می گیرد. این کتابخانه ها برای حوزه های مختلف کاربردی طراحی شده اند و بر روی نوآوری های دهه ای ساخته شده اند که در بسته CUDAX جمع آوری شده اند. این کتابخانه از الگوریتم های در حال گسترش پشتیبانی می کند و آن را برای نسل بعدی مدل های هوش مصنوعی آینده نگر می سازد.

سرعت انتقال داده در پلتفرم جدید انویدیا

پردازنده گرافیکی بلک ول انویدیا دارای بالاترین سطح محاسبات هوش مصنوعی، پهنای باند حافظه و پهنای باند ارتباطی در یک کارت گرافیک واحد است. این کارت گرافیک از دو پردازنده گرافیکی با محدوده رتیکل که با استفاده از NVHBI به هم متصل شده اند، تشکیل شده است. خود چیپ دارای 208 میلیارد ترانزیستور است که در فرآیند TSMC 4NP و در یک طراحی بیش از 1600 میلی متر مربع ساخته شده است. کارت گرافیک هوش مصنوعی بلک ول 20 پتافلاپ عملکرد FP4 هوش مصنوعی، 8 ترابایت بر ثانیه پهنای باند حافظه (8 سایت بر روی HBM3e)، 1.8 ترابایت بر ثانیه پهنای باند NVLINK دوطرفه و یک لینک پرسرعت NVLINKC2C به CPU گریس ارائه می دهد.

معماری کارت گرافیک بلک ول همچنین با معماری هسته تنسور نسل 5 تقویت شده است که دارای فرمت های داده ای جدیدی مانند FP4، FP6 و FP8 است. این فرمت های میکرو تنسور به بردارهای با طول ثابت اعمال می شوند، اجازه می دهند که عناصر به فاکتورهای مقیاسی که ثابت هستند نگاشت شوند و پهنای باند گسترده تری، مصرف توان کمتر و دقت بیشتری را ارائه دهند.

نگاهی به تأثیرات عملکرد هسته های تنسور نسل 5 نشان می دهد که هر یک از فرمت های داده موجود (FP16، BF16، FP8) در هر کلاک دو برابر سرعت بیشتری نسبت به Hopper دارند، در حالی که FP6 دو برابر سرعت بیشتری نسبت به FP8 Hopper دارد و FP4 چهار برابر سرعت بیشتری نسبت به FP8 Hopper دارد. علاوه بر فرمت های جدید، کارت گرافیک های بلک ول هوش مصنوعی همچنین دارای فرکانس های عملیاتی افزایش یافته نسبت به چیپ های Hopper هستند.

یکی از ویژگی های جدید برای بلک ول، سیستم کوانتش Quasar انویدیا است که فرمت های کم دقت مانند FP4 را به داده های با دقت بالا تبدیل می کند، با استفاده از کتابخانه های بهینه سازی شده، موتورهای مبدل سخت افزار و نرم افزار و الگوریتم های عددی کم دقت، در مقایسه با BF16، FP4 کوانتش شده همان امتیاز MMLU را در مدل های LLM و همان دقت را در مدل های Nemotron4 15B و حتی 340B ارائه می دهد.

پلتفرم بلک ول انویدیا مجموعه ای از چیپ ها، سیستم ها و نرم افزارهای CUDA انویدیا را به هم می آورد تا نسل بعدی هوش مصنوعی را در کاربردها، صنایع و حل مسائل پیچیده تقویت کند. انویدیا GB200 NVL72 یک راه حل چند نودی، مایع خنک، در مقیاس رک که 72 GPU بلک ول و 36 CPU گریس را به هم متصل می کند، مرزهای طراحی سیستم های هوش مصنوعی را بالا می برد. فناوری ارتباطی NVLink ارتباط همه به همه کارت گرافیک را فراهم می کند و توان عبور و تأخیر پایین را برای ارزیابی هوش مصنوعی مولد ارائه می دهد. سیستم کوانتش Quasar انویدیا، مرزهای فیزیک را برای تسریع محاسبات هوش مصنوعی جابه جا می کند. پژوهشگران انویدیا در حال ساخت مدل های هوش مصنوعی هستند که به ساخت پردازنده هایی برای هوش مصنوعی کمک می کنند.

یکی دیگر از جنبه های بزرگ پلتفرم هوش مصنوعی بلک ول انویدیا، نسل 5 NVLINK است که کل پلتفرم را با استفاده از 18 NVLINK با پهنای باند 100 گیگابایت بر ثانیه برای هر کدام، یعنی پهنای باند 1.8 ترابایت بر ثانیه، متصل می کند.

همچنین یک چیپ سوئیچ NVLINK نسل 4 وجود دارد که درون سینی سوئیچ NVLINK قرار دارد و دارای اندازه چیپ بیش از 800 میلی متر مربع (TSMC 4NP) است. این چیپ ها NVLINK را به 72 GPU در رک های GB200 NVL72 گسترش می دهند و پهنای باند همه به همه دوطرفه 7.2 ترابایت بر ثانیه را از طریق 72 پورت و محاسبات درون شبکه SHARP با 3.6 ترافلاپس ارائه می دهند. سینی دارای دو سوئیچ با پهنای باند ترکیبی 14.4 ترابایت بر ثانیه است.

همه این ها در NVIDIA GB200 Grace Blackwell Superchip، یک توان محاسباتی هوش مصنوعی با 1 CPU گریس و 2 GPU بلک ول (چهار قالب GPU)، جمع می شود. برد دارای ارتباط NVLINKC2C است و 40 پتافلاپ FP4 و 20 پتافلاپ محاسبه FP8 را ارائه می دهد. یک سینی Grace Blackwell با 2 CPU گریس (هر کدام 72 هسته) و 4 GPU بلک ول (8 قالب GPU) همراه است.

NVLINK Spine سپس در سرورهای GB200 NVL72 و NVL36 استفاده می شود که تا 36 CPU گریس، 72 GPU بلک ول، و همه کاملاً متصل با استفاده از رک سوئیچ NVLINK را ارائه می دهند. این سرور 720 پتافلاپ آموزش، 1440 پتافلاپ ارزیابی، پشتیبانی از مدل هایی با حداکثر 27 تریلیون پارامتر و پهنای باند تا 130 ترابایت بر ثانیه (چند نودی) را ارائه می دهد.

روند زمانی معرفی محصولات جدید انویدیا

در نهایت، SpectrumX وجود دارد که اولین پارچه اترنت ساخته شده برای هوش مصنوعی در جهان است و شامل دو چیپ، Spectrum4 با 100 میلیارد ترانزیستور، پهنای باند 51.2T، 64 پورت 800G و 128 پورت 400G و Bluefield3 DPU با 16 هسته Arm A78، 256 رشته و اترنت 400 گیگابیت بر ثانیه است. این دو چیپ اترنت هوش مصنوعی در رک SpectrumX800 به هم می پیوندند که یک پلتفرم بی نهایت برای بارهای کاری هوش مصنوعی ابری است.

ترکیب پلتفرم هوش مصنوعی بلک ول انویدیا یک افزایش 30 برابری در حال ارزیابی نسبت به Hopper و در عین حال افزایش 25 برابری در بهره وری انرژی را ارائه می دهد. اما انویدیا تازه شروع کرده است، پس از بلک ول، تیم سبز همچنین قصد دارد Blackwell Ultra را با افزایش چگالی محاسبات و حافظه در سال 2025 عرضه کند و سپس Rubin و Rubin Ultra با HBM4 و معماری های جدید را در سال های 20262027 معرفی کند. کل اکوسیستم CPU، شبکه و ارتباط نیز طی سال های 20252027 به روزرسانی های عمده ای دریافت خواهد کرد.

مطالب مرتبط:

امتیاز: 5.0 از 5 (1 رای)

کمی صبر کنید…

شهریور 6, 1403اخرین به روز رسانی: اردیبهشت 18, 1404

0 4 دقیقه خوانده شد

جزئیات پلتفرم Blackwell انویدیا برای هوش مصنوعی مشخص شد

دیدگاهتان را بنویسید لغو پاسخ

مقایسه کاراکترهای فری فایر برای مود Clash Squad

دانلود جدیدترین بازی‌های کامپیوتری: بهترین منبع برای گیمرها

دلیل خرید گیفت کارت پلی استیشن ترکیه؛ ی هوشمندانه برای گیمرهای ایرانی

بهترین سرویس کاهش پینگ در ایران + معرفی راهکار

سیم کارت 0912

مایکروسافت شفاف سازی کرد؛ کنترل پنل ویندوز فعلاً حذف نمی شود

تلویزیون های هوش مصنوعی سامسونگ ۷ سال آپدیت دریافت می کنند

مقالات مرتبط

کارت های GeForce RTX 5090 و RTX 5090D انویدیا با هسته و کلاک برابر به بازار می آیند

تاریخ عرضه رسمی سری RTX 50 مشخص شد: رویداد CES 2025

پردازنده های گرافیکی نسل بعدی Arc Battlemage Xe2HPG شرکت اینتل تایید شدند!

شناسه های PCI و پردازنده تراشه های Panther Lake اینتل فهرست شد

دیدگاهتان را بنویسید لغو پاسخ