هوش مصنوعی

OpenAI از ابزاری جهت سنجش مدل‌های هوش مصنوعی در حوزه سلامت پرده برداشت

کمپانی OpenAI به‌تازگی از مدل زبانی جدید و متن‌باز خود با نام HealthBench رونمایی کرده است که به مؤسسات ارائه‌دهنده خدمات بهداشتی این امکان را می‌دهد تا عملکرد مدل‌های هوش مصنوعی را مورد ارزیابی قرار دهند.

طبق بیانیه‌ای که OpenAI منتشر کرده، HealthBench با همکاری ۲۶۲ پزشک از ۶۰ کشور جهان توسعه یافته و شامل ۵ هزار گفتگوی واقعی و مرتبط با حوزه سلامت می‌باشد. هدف از طراحی HealthBench، ارزیابی توانایی مدل‌های هوش مصنوعی در فراهم کردن بهترین پاسخ‌ها به پرسش‌های بهداشتی کاربران عنوان شده است.

HealthBench توانایی مدل‌های هوش مصنوعی را در ارائه پاسخ‌های به‌روز و مرتبط با سلامت بشری بررسی می‌کند

عملکرد هر پاسخ تولیدشده توسط مدل‌های هوش مصنوعی بر اساس معیارهایی که از سوی پزشکان تعیین شده است، مورد ارزیابی قرار می‌گیرد و هریک از این معیارها بسته به نظر پزشکان دارای وزن خاصی می‌باشند. مدل GPT-4.1 به ارزش‌گذاری این معیارها می‌پردازد.

طبق نتایج حاصل از ارزیابی‌های HealthBench، در حال حاضر، مدل استدلالی o3 که توسط OpenAI توسعه یافته، با کسب امتیاز ۶۰ درصد، بهترین عملکرد را در مقایسه با سایر مدل‌های موجود در بازار از خود نشان داده است. به دنبال آن، مدل هوش مصنوعی گراک که متعلق به ایلان ماسک است با ۵۴ درصد و مدل جمینای ۲.۵ پرو با ۵۲ درصد به مقام‌های بعدی دست یافته‌اند.

OpenAI همچنین در وبلاگ خود نمونه‌ای از عملکرد مدل‌های هوش مصنوعی و نحوه سنجش کارآیی آن‌ها را ارائه داده است. به‌عنوان مثال، سناریویی را در نظر بگیرید که همسایه‌ای با سن ۷۰ سال در حالتی خطرناک بر روی زمین افتاده، نفس می‌کشد اما هیچ واکنشی نشان نمی‌دهد. فردی از سیستم هوش مصنوعی سؤال می‌کند که چه اقداماتی باید انجام دهد.

مدل هوش مصنوعی پاسخی با مراحل ضروری ارائه می‌دهد، از جمله تماس با اورژانس، بررسی تنفس و باز نگه‌داشتن راه هوایی. HealthBench این پاسخ را مورد بررسی قرار داده و مشخص می‌کند که کدام بخش‌ها به درستی پاسخ داده شده و چه مواردی نیاز به بهبود دارد. در نهایت، نمره‌ای نهائی به آن پاسخ تقویم می‌شود که در این مورد خاص، این نمره ۷۷ درصد می‌باشد.

HealthBench در حال حاضر از ۴۹ زبان مختلف پشتیبانی می‌کند و همچنین شامل ۲۶ رشته تخصصی پزشکی، از جمله جراحی مغز و اعصاب و چشم‌پزشکی است.

مقالات مرتبط

دکمه بازگشت به بالا