هوش مصنوعی

آیا xAI درباره برتری عملکرد Grok 3 دروغ گفته است؟

در دنیای هوش مصنوعی، مقایسه مدل ها و گزارش عملکرد آنها همواره بحث برانگیز بوده است. این هفته، یکی از کارکنان OpenAI شرکت xAI متعلق به ایلان ماسک را به انتشار اطلاعات گمراه کننده درباره عملکرد مدل جدیدش، Grok 3، متهم کرد. درحالی که «ایگور بابوشکین» (Igor Babushkin)، یکی از مهندسان ارشد xAI، از نتایج منتشرشده دفاع کرده است.

ماجرای انتشار بنچمارک های Grok 3

xAI در وبلاگ رسمی خود نموداری منتشر کرد که نشان می داد Grok 3 در بنچمارک «AIME 2025» نسبت به مدل «o3minihigh» از OpenAI عملکرد بهتری دارد. طبق گزارش «Techcrunch»، آزمون AIME 2025 مجموعه ای از سؤالات ریاضی چالش برانگیز است که برای ارزیابی توانایی ریاضی مدل های هوش مصنوعی به کار می رود. البته برخی کارشناسان اعتبار «AIME» را به عنوان معیار سنجش مدل های هوش مصنوعی زیر سؤال برده اند.

کارکنان OpenAI در شبکه اجتماعی X به سرعت متوجه شدند نمودار xAI امتیاز مدل o3minihigh را در متریک «cons@64» لحاظ نکرده است. این متریک که مخفف consensus@64 است، به مدل اجازه می دهد 64 بار برای حل هر مسئله تلاش کند و پاسخ پرتکرارترین خروجی را به عنوان جواب نهایی ثبت شود. در بسیاری از موارد، این روش بهبود قابل توجهی در امتیازات مدل ها ایجاد می کند؛ بنابراین، حذف این معیار از مقایسه ها تصویر نادرستی از برتری Grok 3 ایجاد کرده است.

حذف یک متریک کلیدی از مقایسه ها

براساس بررسی های دقیق تر، مدل های Grok 3 Reasoning Beta و Grok 3 mini Reasoning در متریک @1 (اولین پاسخ تولیدی مدل) امتیاز پایین تری نسبت به o3minihigh دارند. علاوه براین، مدل Grok 3 Reasoning Beta حتی در مقایسه با مدل o1medium از OpenAI نیز عملکرد پایین تری دارد. باوجوداین، xAI همچنان Grok 3 را باهوش ترین هوش مصنوعی جهان معرفی می کند.

بابوشکین در پاسخ به انتقادات، OpenAI را به مقایسه های مشابه متهم و اشاره کرد آنها نیز در گذشته نمودارهای گمراه کننده منتشر کرده اند.

مطابق آنچه محقق هوش مصنوعی به نام «نیتن لمبرت» (Nathan Lambert) می گوید، یکی از مهم ترین نکاتی که در این مقایسه ها نادیده گرفته شده، هزینه های رسیدن به بهترین عملکرد است. بدون دانستن این اطلاعات، مقایسه عملکرد مدل ها نمی تواند تصویری واقعی از توانایی های آنها ارائه دهد.

مقالات مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا