هوش مصنوعی

استاندارد جدید OpenAI برای ارزیابی کارایی هوش مصنوعی در وظایف واقعی

OpenAI با معرفی آزمون تازه‌ای تحت عنوان GDPval به ارزیابی عملکرد مدل‌های هوش مصنوعی در وظایف واقعی و حرفه‌ای پرداخته است. نتایج حاصل از این آزمون نشان‌دهنده آن است که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شده‌اند که قادر به ارائه خروجی‌هایی مشابه با متخصصین انسانی هستند.

به گفته این شرکت، آزمون GDPval شامل 1320 وظیفه واقعی مربوط به 44 شغل مختلف نظیر نرم‌افزار مهندسی، وکالت و پرستاری می‌باشد. این وظایف طراحی‌شده توسط گروهی از افراد متخصص با میانگین 14 سال تجربه کاری صورت گرفته است. فرمت خروجی مدل‌ها نیز می‌تواند شامل مواردی از یک نقشه مهندسی تا لایحه‌های حقوقی و طرح‌های مراقبتی پرستاری باشد.

OpenAI تأکید نموده است که بر خلاف بنچمارک‌های معمول که غالباً به صورت آکادمیک هستند، آزمون GDPval مدل‌ها را با فایل‌های چندرسانه‌ای نظیر اسلایدها و اسناد به چالش می‌کشد. از این طریق، غول هوش مصنوعی در تلاش است تا وظایف مدل‌ها را به واقعیت کار نیروی کار نزدیک‌تر کند.

در این آزمون، مدل‌های GPT-5، o3، o4-mini و GPT-4o از OpenAI به همراه Claude Opus 4.1 از آنتروپیک، جمینای 2.5 پرو که تحت مدیریت گوگل است و Grok 4 از xAI، مورد ارزیابی قرار گرفتند. در مرحله بعدی، عملکرد آن‌ها توسط کارشناسان تحلیل و سنجش شده است.

عملکرد مدل‌های هوش مصنوعی در بنچمارک جدید OpenAI

<pبر اساس نتایج، Claude Opus 4.1 در زمینه زیبایی‌شناسی و ظاهر خروجی‌ها مانند طراحی چیدمان اسلایدها و فرمت‌بندی اسناد، بهترین عملکرد را از خود نشان داد، در حالی که GPT-5 بیشترین دقت را در جستجوی اطلاعات تخصصی و صحت داده‌ها به نمایش گذاشت. OpenAI همچنین خاطرنشان ساخت که توانایی مدل‌ها از زمان انتشار GPT-4o در بهار 2024 تا معرفی GPT-5 در تابستان 2025 به بیش از دو برابر افزایش یافته است.

نکته‌ای که قابل توجه است، کاهش هزینه و زمان انجام کارهاست. بر اساس ادعای OpenAI، مدل‌های پیشرفته توانایی انجام وظایف GDPval را حدود 100 برابر سریع‌تر و همچنین 100 برابر ارزان‌تر از متخصصان انسانی دارند. البته این آمار تنها مربوط به زمان پردازش و هزینه API است و مراحل مهمی همچون نظارت انسانی، ویرایش و ادغام در پروژه‌ها شامل نمی‌شود.

با این حال، OpenAI اعلام کرده که آزمون GDPval همچنان محدودیت‌هایی دارد. این آزمون فقط به یک بار ارزیابی خروجی‌ها بسنده می‌کند و نمی‌تواند توانمندی‌های مدل‌ها در ایجاد چندین پیش‌نویس یا مدیریت پروژه‌های بلندمدت را مورد سنجش قرار دهد. همچنین در دنیای واقعی، بسیاری از وظایف به صورت مبهم یا تحت شرایط متغیر تعریف می‌شوند، در حالی که GDPval تمرکز بیشتری بر وظایف شفاف و مشهود دارد.

OpenAI در نتیجه‌گیری خود تأکید کرده که علیرغم این محدودیت‌ها، نتایج گویای این است که مدل‌های هوش مصنوعی در حال نزدیک شدن به سطحی هستند که می‌توانند بخشی عمده از وظایف کاری را انجام دهند و این مسأله به نیروی انسانی این امکان را می‌دهد که وقت بیشتری را به فعالیت‌های پیچیده‌تر اختصاص دهند.

این شرکت همچنین اعلام کرده که قصد دارد نسخه‌های آتی GDPval را به سایر صنایع نیز گسترش داده و وظایف پیچیده‌تر و تعاملی‌تر را در آن بگنجاند.

مقالات مرتبط

دکمه بازگشت به بالا