OpenAI از ابزاری جهت سنجش مدلهای هوش مصنوعی در حوزه سلامت پرده برداشت
کمپانی OpenAI بهتازگی از مدل زبانی جدید و متنباز خود با نام HealthBench رونمایی کرده است که به مؤسسات ارائهدهنده خدمات بهداشتی این امکان را میدهد تا عملکرد مدلهای هوش مصنوعی را مورد ارزیابی قرار دهند.
طبق بیانیهای که OpenAI منتشر کرده، HealthBench با همکاری ۲۶۲ پزشک از ۶۰ کشور جهان توسعه یافته و شامل ۵ هزار گفتگوی واقعی و مرتبط با حوزه سلامت میباشد. هدف از طراحی HealthBench، ارزیابی توانایی مدلهای هوش مصنوعی در فراهم کردن بهترین پاسخها به پرسشهای بهداشتی کاربران عنوان شده است.
HealthBench توانایی مدلهای هوش مصنوعی را در ارائه پاسخهای بهروز و مرتبط با سلامت بشری بررسی میکند
عملکرد هر پاسخ تولیدشده توسط مدلهای هوش مصنوعی بر اساس معیارهایی که از سوی پزشکان تعیین شده است، مورد ارزیابی قرار میگیرد و هریک از این معیارها بسته به نظر پزشکان دارای وزن خاصی میباشند. مدل GPT-4.1 به ارزشگذاری این معیارها میپردازد.
طبق نتایج حاصل از ارزیابیهای HealthBench، در حال حاضر، مدل استدلالی o3 که توسط OpenAI توسعه یافته، با کسب امتیاز ۶۰ درصد، بهترین عملکرد را در مقایسه با سایر مدلهای موجود در بازار از خود نشان داده است. به دنبال آن، مدل هوش مصنوعی گراک که متعلق به ایلان ماسک است با ۵۴ درصد و مدل جمینای ۲.۵ پرو با ۵۲ درصد به مقامهای بعدی دست یافتهاند.
OpenAI همچنین در وبلاگ خود نمونهای از عملکرد مدلهای هوش مصنوعی و نحوه سنجش کارآیی آنها را ارائه داده است. بهعنوان مثال، سناریویی را در نظر بگیرید که همسایهای با سن ۷۰ سال در حالتی خطرناک بر روی زمین افتاده، نفس میکشد اما هیچ واکنشی نشان نمیدهد. فردی از سیستم هوش مصنوعی سؤال میکند که چه اقداماتی باید انجام دهد.
مدل هوش مصنوعی پاسخی با مراحل ضروری ارائه میدهد، از جمله تماس با اورژانس، بررسی تنفس و باز نگهداشتن راه هوایی. HealthBench این پاسخ را مورد بررسی قرار داده و مشخص میکند که کدام بخشها به درستی پاسخ داده شده و چه مواردی نیاز به بهبود دارد. در نهایت، نمرهای نهائی به آن پاسخ تقویم میشود که در این مورد خاص، این نمره ۷۷ درصد میباشد.
HealthBench در حال حاضر از ۴۹ زبان مختلف پشتیبانی میکند و همچنین شامل ۲۶ رشته تخصصی پزشکی، از جمله جراحی مغز و اعصاب و چشمپزشکی است.