کامپیوتر و سخت افزار

پلتفرم GB300 NVL72 انویدیا در کلیه آزمایش‌های MLPerf به برتری رسید

شرکت انویدیا به تازگی نتایج آزمون‌های هوش مصنوعی MLPerf را با استفاده از پلتفرم GB300 NVL72 که بر پایه معماری Blackwell Ultra طراحی شده، منتشر کرده و به این ترتیب، قدرت محصول خود را به نمایش گذاشته است. در این آزمون‌ها، GB300 NVL72 موفق به نمایش عملکردی پنج برابر بهتر نسبت به پلتفرم‌هایی مبتنی بر معماری Hopper شده است.

عملکرد سیستم GB300 NVL72 انویدیا در تست‌های MLPerf

در راستای ارزیابی قابلیت‌های بی‌نظیر در زمینه هوش مصنوعی، پردازنده‌های گرافیکی انویدیا همواره در رأس لیست‌های پرفروش قراردارند. کارت گرافیک‌های ویژه دیتاسنتر که از معماری Blackwell بهره می‌برند، پیشتر نشان داده‌اند که قابلیت‌های حیرت‌انگیز آن‌ها فراتر از تصور است و جدیدترین پلتفرم GB300 NVL72 نیز از این قاعده مستثنی نیست.

انویدیا به تازگی با افتخار اعلام کرد که پردازنده‌های گرافیکی هوش مصنوعی Blackwell Ultra این شرکت، توانسته‌اند در تمامی آزمون‌های آموزش هوش مصنوعی MLPerf بهترین جایگاه را کسب کنند. این نتایج مؤید این واقعیت است که سیستم GB300 NVL72 از انویدیا همچنان گزینه‌ای بی‌نظیر برای بارهای کاری فشرده در زمینه هوش مصنوعی به شمار می‌رود.

شرکت انویدیا اعلام کرده است که تنها آنها هستند که موفق به ارائه نتایج تمام آزمون‌های MLPerf شده و توانسته‌اند اختلاف عملکرد خود را با رقبای دیگر به طرز قابل توجهی افزایش دهند. نمودار به اشتراک گذاشته شده نشان‌دهنده این است که پلتفرم GB300 تنها در سال 2025 موفق به کسب صدها پیروزی در آزمون‌های آموزش و استنتاج MLPerf شده است. نتایج آزمون‌های اخیر به شرح زیر است:

  1. Llama 3.1 405B: 10 min
  2. Llama 2 70B LoRA: 0.4 min
  3. Llama 3.1 8B: 5.2 min
  4. FLUX.1: 12.5 min
  5. DLRM-dcnv2: 0.71 min
  6. R-GAT: 1.1 min
  7. RetinaNet: 1.4 min

بنچمارک‌ها نشان می‌دهند که انویدیا با به کارگیری همین تعداد پردازنده گرافیکی Blackwell Ultra در سیستم رک، توانسته به نتایج خیلی بهتری نسبت به سیستم‌هایی که از معماری Hopper استفاده می‌کنند، دست یابد. عملکرد پردازنده‌های گرافیکی GB300 در Llama 3.1 40B pretraining نسبت به H100 بیش از 4 برابر و در مقایسه با Blackwell GB200 تقریباً 2 برابر بهتر بوده است. به همین ترتیب، در Llama 2 70B Fine-Tuning، هشت پردازنده گرافیکی GB300 موفق به ارائه عملکردی پنج برابر بهتر از H100 شدند.

پشتیبانی از ظرفیت حافظه 40 ترابایتی در پلتفرم GB300 NVL72

همچنین، انویدیا به اکوسیستم CUDA خود که از رقبای خود در این عرصه برتری زیادی دارد، افتخار می‌کند. پشته نرم‌افزاری CUDA در این حوزه عملکرد فوق‌العاده‌ای دارد و سیستم رک به همراه Quantum-X800 InfiniBand با سرعت انتقال 800 گیگابایت بر ثانیه، واقعا خاص است. شایان ذکر است که پلتفرم GB300 NVL72 برای هر پردازنده گرافیکی 279 گیگابایت حافظه HBM3e دارد. بدین ترتیب، مجموع حافظه گرافیک‌ها و پردازنده‌های مرکزی، ظرفیت شگفت‌انگیز 40 ترابایت را به ارمغان می‌آورد. این پیکربندی عظیم حافظه، سرعت بار کاری هوش مصنوعی را به طرز چشمگیری ارتقا می‌دهد و استفاده از دقت FP4 برای آموزش، در راستای ارائه عملکرد بی‌نظیر، بسیار حائز اهمیت است.

ثبت رکورد آموزش 10 دقیقه‌ای برای پارامتر Llama 405B

انویدیا اعلام کرده است که در حین آموزش LLM، دقت FP4 را تضمین کرده است تا سرعت محاسبات نسبت به FP8 دو برابر شود. فناوری Blackwell Ultra موجب افزایش این دقت به 3 برابر می‌شود، لذا انویدیا توانسته است رقبای خود را شکست داده و بدون نیاز به افزایش تعداد پردازنده‌های گرافیکی، عملکرد به مراتب بهتر و فوق‌العاده‌ای را به نمایش بگذارد. این نتایج جدید با استفاده از 5120 پردازنده گرافیکی Blackwell به دست آمده و زمان آموزش پارامتر Llama 3.1 405B به فقط 10 دقیقه کاهش یافته است.

مقایسه بین معماری‌های Hopper، Blackwell و Blackwell Ultra در جدول زیر مشاهده می‌شود:

ویژگی Hopper Blackwell Blackwell Ultra
فناوری ساخت TSMC 4N TSMC 4NP TSMC 4NP
تعداد ترانزیستور 80B 208B 208B
تعداد قالب GPU 1 2 2
عملکرد NVFP4 10 20 PetaFLOPS
عملکرد FP8 2 4 PetaFLOPS 5
تسریع Attention 4.5 TeraExponentials/s 5 TeraExponentials/s 10.7 TeraExponentials/s
حداکثر ظرفیت حافظه HBM 80 گیگابایت HBM «H100»؛ 141 گیگابایت HBM3E «H200» 192 گیگابایت HBM3E 288 گیگابایت HBM3E
حداکثر پهنای باند HBM 3.35 ترابایت بر ثانیه «H100»؛ 4.8 TB/s «H200» 8 ترابایت بر ثانیه 8 ترابایت بر ثانیه
پهنای باند NVLink 900 گیگابایت بر ثانیه 1800 گیگابایت بر ثانیه 1800 گیگابایت بر ثانیه
حداکثر توان مصرفی «TGP» تا 700 وات تا 1200 وات تا 1400 وات

امتیاز: 5.0 از 5 (3 رای)