استاندارد جدید OpenAI برای ارزیابی کارایی هوش مصنوعی در وظایف واقعی

OpenAI با معرفی آزمون تازهای تحت عنوان GDPval به ارزیابی عملکرد مدلهای هوش مصنوعی در وظایف واقعی و حرفهای پرداخته است. نتایج حاصل از این آزمون نشاندهنده آن است که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شدهاند که قادر به ارائه خروجیهایی مشابه با متخصصین انسانی هستند.
به گفته این شرکت، آزمون GDPval شامل 1320 وظیفه واقعی مربوط به 44 شغل مختلف نظیر نرمافزار مهندسی، وکالت و پرستاری میباشد. این وظایف طراحیشده توسط گروهی از افراد متخصص با میانگین 14 سال تجربه کاری صورت گرفته است. فرمت خروجی مدلها نیز میتواند شامل مواردی از یک نقشه مهندسی تا لایحههای حقوقی و طرحهای مراقبتی پرستاری باشد.
OpenAI تأکید نموده است که بر خلاف بنچمارکهای معمول که غالباً به صورت آکادمیک هستند، آزمون GDPval مدلها را با فایلهای چندرسانهای نظیر اسلایدها و اسناد به چالش میکشد. از این طریق، غول هوش مصنوعی در تلاش است تا وظایف مدلها را به واقعیت کار نیروی کار نزدیکتر کند.
در این آزمون، مدلهای GPT-5، o3، o4-mini و GPT-4o از OpenAI به همراه Claude Opus 4.1 از آنتروپیک، جمینای 2.5 پرو که تحت مدیریت گوگل است و Grok 4 از xAI، مورد ارزیابی قرار گرفتند. در مرحله بعدی، عملکرد آنها توسط کارشناسان تحلیل و سنجش شده است.
عملکرد مدلهای هوش مصنوعی در بنچمارک جدید OpenAI
<pبر اساس نتایج، Claude Opus 4.1 در زمینه زیباییشناسی و ظاهر خروجیها مانند طراحی چیدمان اسلایدها و فرمتبندی اسناد، بهترین عملکرد را از خود نشان داد، در حالی که GPT-5 بیشترین دقت را در جستجوی اطلاعات تخصصی و صحت دادهها به نمایش گذاشت. OpenAI همچنین خاطرنشان ساخت که توانایی مدلها از زمان انتشار GPT-4o در بهار 2024 تا معرفی GPT-5 در تابستان 2025 به بیش از دو برابر افزایش یافته است.
نکتهای که قابل توجه است، کاهش هزینه و زمان انجام کارهاست. بر اساس ادعای OpenAI، مدلهای پیشرفته توانایی انجام وظایف GDPval را حدود 100 برابر سریعتر و همچنین 100 برابر ارزانتر از متخصصان انسانی دارند. البته این آمار تنها مربوط به زمان پردازش و هزینه API است و مراحل مهمی همچون نظارت انسانی، ویرایش و ادغام در پروژهها شامل نمیشود.
با این حال، OpenAI اعلام کرده که آزمون GDPval همچنان محدودیتهایی دارد. این آزمون فقط به یک بار ارزیابی خروجیها بسنده میکند و نمیتواند توانمندیهای مدلها در ایجاد چندین پیشنویس یا مدیریت پروژههای بلندمدت را مورد سنجش قرار دهد. همچنین در دنیای واقعی، بسیاری از وظایف به صورت مبهم یا تحت شرایط متغیر تعریف میشوند، در حالی که GDPval تمرکز بیشتری بر وظایف شفاف و مشهود دارد.
OpenAI در نتیجهگیری خود تأکید کرده که علیرغم این محدودیتها، نتایج گویای این است که مدلهای هوش مصنوعی در حال نزدیک شدن به سطحی هستند که میتوانند بخشی عمده از وظایف کاری را انجام دهند و این مسأله به نیروی انسانی این امکان را میدهد که وقت بیشتری را به فعالیتهای پیچیدهتر اختصاص دهند.
این شرکت همچنین اعلام کرده که قصد دارد نسخههای آتی GDPval را به سایر صنایع نیز گسترش داده و وظایف پیچیدهتر و تعاملیتر را در آن بگنجاند.




