استاندارد جدید OpenAI برای ارزیابی کارایی هوش مصنوعی در وظایف واقعی

سپتامبر 27, 2025اخرین به روز رسانی: سپتامبر 28, 2025

2 دقیقه خوانده شد

بنچمارک جدید OpenAI برای بررسی عملکرد هوش مصنوعی در وظایف واقعی

OpenAI با معرفی آزمون تازه‌ای تحت عنوان GDPval به ارزیابی عملکرد مدل‌های هوش مصنوعی در وظایف واقعی و حرفه‌ای پرداخته است. نتایج حاصل از این آزمون نشان‌دهنده آن است که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شده‌اند که قادر به ارائه خروجی‌هایی مشابه با متخصصین انسانی هستند.

به گفته این شرکت، آزمون GDPval شامل 1320 وظیفه واقعی مربوط به 44 شغل مختلف نظیر نرم‌افزار مهندسی، وکالت و پرستاری می‌باشد. این وظایف طراحی‌شده توسط گروهی از افراد متخصص با میانگین 14 سال تجربه کاری صورت گرفته است. فرمت خروجی مدل‌ها نیز می‌تواند شامل مواردی از یک نقشه مهندسی تا لایحه‌های حقوقی و طرح‌های مراقبتی پرستاری باشد.

OpenAI تأکید نموده است که بر خلاف بنچمارک‌های معمول که غالباً به صورت آکادمیک هستند، آزمون GDPval مدل‌ها را با فایل‌های چندرسانه‌ای نظیر اسلایدها و اسناد به چالش می‌کشد. از این طریق، غول هوش مصنوعی در تلاش است تا وظایف مدل‌ها را به واقعیت کار نیروی کار نزدیک‌تر کند.

در این آزمون، مدل‌های GPT-5، o3، o4-mini و GPT-4o از OpenAI به همراه Claude Opus 4.1 از آنتروپیک، جمینای 2.5 پرو که تحت مدیریت گوگل است و Grok 4 از xAI، مورد ارزیابی قرار گرفتند. در مرحله بعدی، عملکرد آن‌ها توسط کارشناسان تحلیل و سنجش شده است.

عملکرد مدل‌های هوش مصنوعی در بنچمارک جدید OpenAI

<pبر اساس نتایج، Claude Opus 4.1 در زمینه زیبایی‌شناسی و ظاهر خروجی‌ها مانند طراحی چیدمان اسلایدها و فرمت‌بندی اسناد، بهترین عملکرد را از خود نشان داد، در حالی که GPT-5 بیشترین دقت را در جستجوی اطلاعات تخصصی و صحت داده‌ها به نمایش گذاشت. OpenAI همچنین خاطرنشان ساخت که توانایی مدل‌ها از زمان انتشار GPT-4o در بهار 2024 تا معرفی GPT-5 در تابستان 2025 به بیش از دو برابر افزایش یافته است.

نکته‌ای که قابل توجه است، کاهش هزینه و زمان انجام کارهاست. بر اساس ادعای OpenAI، مدل‌های پیشرفته توانایی انجام وظایف GDPval را حدود 100 برابر سریع‌تر و همچنین 100 برابر ارزان‌تر از متخصصان انسانی دارند. البته این آمار تنها مربوط به زمان پردازش و هزینه API است و مراحل مهمی همچون نظارت انسانی، ویرایش و ادغام در پروژه‌ها شامل نمی‌شود.

با این حال، OpenAI اعلام کرده که آزمون GDPval همچنان محدودیت‌هایی دارد. این آزمون فقط به یک بار ارزیابی خروجی‌ها بسنده می‌کند و نمی‌تواند توانمندی‌های مدل‌ها در ایجاد چندین پیش‌نویس یا مدیریت پروژه‌های بلندمدت را مورد سنجش قرار دهد. همچنین در دنیای واقعی، بسیاری از وظایف به صورت مبهم یا تحت شرایط متغیر تعریف می‌شوند، در حالی که GDPval تمرکز بیشتری بر وظایف شفاف و مشهود دارد.

OpenAI در نتیجه‌گیری خود تأکید کرده که علیرغم این محدودیت‌ها، نتایج گویای این است که مدل‌های هوش مصنوعی در حال نزدیک شدن به سطحی هستند که می‌توانند بخشی عمده از وظایف کاری را انجام دهند و این مسأله به نیروی انسانی این امکان را می‌دهد که وقت بیشتری را به فعالیت‌های پیچیده‌تر اختصاص دهند.

این شرکت همچنین اعلام کرده که قصد دارد نسخه‌های آتی GDPval را به سایر صنایع نیز گسترش داده و وظایف پیچیده‌تر و تعاملی‌تر را در آن بگنجاند.

سپتامبر 27, 2025اخرین به روز رسانی: سپتامبر 28, 2025

2 دقیقه خوانده شد

استاندارد جدید OpenAI برای ارزیابی کارایی هوش مصنوعی در وظایف واقعی

عملکرد مدل‌های هوش مصنوعی در بنچمارک جدید OpenAI

پردازنده اینتل برای گیمینگ؛ کدام سری واقعاً بازی را عوض می‌کند؟

داستان موفقیت هلیکس گیم در صنعت گیم‌هاستینگ ایران

راز کارت های تاروت در Red Dead Redemption 2 که شما ندیدید!

چرا همه گیمرها یک شبه به سمت این لپ تاپ لنوو هجوم بردند

راز خرید یک لپ تاپ گیمینگ واقعی که کسی به شما نمی گوید

مایکروسافت قابلیت «Copilot Mode» را به مرورگر Edge اضافه کرد

مدیر عامل ناشر GTA: هوش مصنوعی صرفاً یک «تردستی» محسوب می‌شود

احتمال انتشار بسته الحاقی مورد نظر برای بازی Silent Hill 2 Remake تقویت شد

این استاد ژاپنی از یک بازی ترسناک برای تدریس زبان در کنسول PS4 بهره می‌برد

پیشرفت محققان چینی؛ شبیه‌سازی شیمی کوانتومی به کمک ابرکامپیوتر کلاسیک

مادربرد Z890 AORUS Tachyon Ice از گیگابایت به رکورد جهانی DDR5-13010 دست یافت

بازگشت پورشه به استفاده از پیشرانه‌های بنزینی؛ کناره‌گیری از آرزوی خودروهای الکتریکی

عملکرد مدل‌های هوش مصنوعی در بنچمارک جدید OpenAI

کارت گرافیک Palit GeForce RTX 5050 StormX با طراحی جمع و جور و تک‌فن معرفی گردید

بازگشت زاکربرگ به دنیای سینما؛ دنباله فیلم The Social Network در پاییز ۲۰۲۶ عرضه خواهد شد

مقالات مرتبط

کاربران اشتراکی ChatGPT مجدداً به مدل پرطرفدار GPT-4o دسترسی پیدا کرده‌اند

قابلیت Finetuning برای مدل های GPT4o و GPT4o mini عرضه شد

تعامل گوگل با «آسوشیتد پرس» برای ارائه جدیدترین اطلاعات این نشریه در جمینای

سرقت اطلاعات Claude برای آموزش هوش مصنوعی