OpenAI از ابزاری جهت سنجش مدل‌های هوش مصنوعی در حوزه سلامت پرده برداشت

اردیبهشت 23, 1404اخرین به روز رسانی: اردیبهشت 23, 1404

1 دقیقه مطالعه کنید

OpenAI ابزاری برای ارزیابی مدل‌های هوش مصنوعی سلامت معرفی کرد

کمپانی OpenAI به‌تازگی از مدل زبانی جدید و متن‌باز خود با نام HealthBench رونمایی کرده است که به مؤسسات ارائه‌دهنده خدمات بهداشتی این امکان را می‌دهد تا عملکرد مدل‌های هوش مصنوعی را مورد ارزیابی قرار دهند.

طبق بیانیه‌ای که OpenAI منتشر کرده، HealthBench با همکاری ۲۶۲ پزشک از ۶۰ کشور جهان توسعه یافته و شامل ۵ هزار گفتگوی واقعی و مرتبط با حوزه سلامت می‌باشد. هدف از طراحی HealthBench، ارزیابی توانایی مدل‌های هوش مصنوعی در فراهم کردن بهترین پاسخ‌ها به پرسش‌های بهداشتی کاربران عنوان شده است.

HealthBench توانایی مدل‌های هوش مصنوعی را در ارائه پاسخ‌های به‌روز و مرتبط با سلامت بشری بررسی می‌کند

عملکرد هر پاسخ تولیدشده توسط مدل‌های هوش مصنوعی بر اساس معیارهایی که از سوی پزشکان تعیین شده است، مورد ارزیابی قرار می‌گیرد و هریک از این معیارها بسته به نظر پزشکان دارای وزن خاصی می‌باشند. مدل GPT-4.1 به ارزش‌گذاری این معیارها می‌پردازد.

طبق نتایج حاصل از ارزیابی‌های HealthBench، در حال حاضر، مدل استدلالی o3 که توسط OpenAI توسعه یافته، با کسب امتیاز ۶۰ درصد، بهترین عملکرد را در مقایسه با سایر مدل‌های موجود در بازار از خود نشان داده است. به دنبال آن، مدل هوش مصنوعی گراک که متعلق به ایلان ماسک است با ۵۴ درصد و مدل جمینای ۲.۵ پرو با ۵۲ درصد به مقام‌های بعدی دست یافته‌اند.

OpenAI همچنین در وبلاگ خود نمونه‌ای از عملکرد مدل‌های هوش مصنوعی و نحوه سنجش کارآیی آن‌ها را ارائه داده است. به‌عنوان مثال، سناریویی را در نظر بگیرید که همسایه‌ای با سن ۷۰ سال در حالتی خطرناک بر روی زمین افتاده، نفس می‌کشد اما هیچ واکنشی نشان نمی‌دهد. فردی از سیستم هوش مصنوعی سؤال می‌کند که چه اقداماتی باید انجام دهد.

مدل هوش مصنوعی پاسخی با مراحل ضروری ارائه می‌دهد، از جمله تماس با اورژانس، بررسی تنفس و باز نگه‌داشتن راه هوایی. HealthBench این پاسخ را مورد بررسی قرار داده و مشخص می‌کند که کدام بخش‌ها به درستی پاسخ داده شده و چه مواردی نیاز به بهبود دارد. در نهایت، نمره‌ای نهائی به آن پاسخ تقویم می‌شود که در این مورد خاص، این نمره ۷۷ درصد می‌باشد.

HealthBench در حال حاضر از ۴۹ زبان مختلف پشتیبانی می‌کند و همچنین شامل ۲۶ رشته تخصصی پزشکی، از جمله جراحی مغز و اعصاب و چشم‌پزشکی است.

اردیبهشت 23, 1404اخرین به روز رسانی: اردیبهشت 23, 1404

1 دقیقه مطالعه کنید

OpenAI از ابزاری جهت سنجش مدل‌های هوش مصنوعی در حوزه سلامت پرده برداشت

HealthBench توانایی مدل‌های هوش مصنوعی را در ارائه پاسخ‌های به‌روز و مرتبط با سلامت بشری بررسی می‌کند

مقایسه کاراکترهای فری فایر برای مود Clash Squad

دانلود جدیدترین بازی‌های کامپیوتری: بهترین منبع برای گیمرها

دلیل خرید گیفت کارت پلی استیشن ترکیه؛ ی هوشمندانه برای گیمرهای ایرانی

بهترین سرویس کاهش پینگ در ایران + معرفی راهکار

سیم کارت 0912

HealthBench توانایی مدل‌های هوش مصنوعی را در ارائه پاسخ‌های به‌روز و مرتبط با سلامت بشری بررسی می‌کند

دبی امکان استفاده از ارز دیجیتال برای پرداخت خدمات دولتی را فراهم کرده است

نگاهی اولیه به بازخورد رسانه‌ها و یوتوبرها در مورد گلکسی S25 اج را بررسی کنید

مقالات مرتبط

شرکت OpenAI از ChatGPT Agent به منظور خودکارسازی وظایف پرده برداشت

آیا هوش مصنوعی می تواند مسیر فرهنگ و هنر را تغییر دهد؟

هوش مصنوعی به زودی در Google Messages برای شما پیام خواهد نوشت

هوش مصنوعی کوپایلوت پرو مایکروسافت با هزینه ماهیانه 20 دلار معرفی شد