مدل های هوش مصنوعی استدلال گر جدید OpenAI بیشتر دچار توهم می شوند
چند روز قبل OpenAI از مدل های استدلال گر جدیدش، o3 و o4mini، رونمایی کرد که از بسیاری جهات نسبت به مدل های قبلی این شرکت پیشرفت کرده اند. بااین حال، طبق گزارش های جدید این مدل ها هنوز دچار توهم می شوند، یعنی چیزهایی می گویند که واقعیت ندارد.
براساس گزارش تک کرانچ، 2 مدل استدلا ل گر o3 و o4mini شرکت OpenAI توهم زیادی دارند. طبق تست های OpenAI، این 2 مدل استدلال گر بیشتر از مدل های استدلال گر قبلی شرکت یعنی o1 ،o1mini و o3mini و همچنین مدل های معمولی OpenAI مانند GPT4o توهم ایجاد می کنند.
درکل توهمات یکی از بزرگ ترین مسائل هوش مصنوعی است که برطرف کردن آنها بسیار دشوار است. بااین حال معمولاً مدل های جدید کمی در بخش توهم بهبود می یابند و کمتر از مدل قبلی خود دچار توهم می شوند. اما این امر درباره o3 و o4mini صادق نیست.
توهم در مدل های هوش مصنوعی جدید OpenAI
نکته نگران کننده تر این است که OpenAI واقعاً نمی داند چرا این اتفاق می افتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4mini می نویسد که «تحقیقات بیشتری مورد نیاز است تا بفهمیم چرا توهمات با پیشرفت مدل های استدلالی افزایش یافته است.»
O3 و o4mini در برخی زمینه ها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند. اما از آنجایی که آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همانقدر که ادعاهای دقیق تری ارائه می کنند، ادعاهای نادرست و متوهم تری نیز ارائه می دهند.
OpenAI می گوید که o3 در پاسخ به 33 درصد از سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش یک مدل درباره اشخاص) توهم ایجاد می کند. این تقریباً 2 برابر میزان توهم مدل های استدلال گر قبلی o1 و o3mini است که به ترتیب امتیاز بنچمارک آنها 16 درصد و 14.8 درصد بود. مدل O4mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدل ها کمک کند تا به ایده های جالبی برسند و خلاق باشند، اما این امر برای کسب وکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکل ساز است. یکی از روش های امیدوارکننده برای افزایش دقت مدل ها، داشتن قابلیت جستجوی وب مدل هاست. برای مثال مدل GPT4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارک های سنجش دقت) به دست آورد.