رقابت سازنده؛ OpenAI و آنتروپیک به ارزیابی ایمنی مدلهای همدیگر پرداختند

OpenAI و آنتروپیک در راستای بررسی ایمنی مدلهای هوش مصنوعی به همدیگر یاری رسانیدهاند. نتایج این پژوهش نشان میدهد که این مدلها قادر به بروز رفتارهای توهینآمیز و خطرناک بوده و حتی ممکن است کاربران را تحت تهدید قرار داده یا از طریق باجخواهی سعی در ترغیب آنها به استفاده از چتباتها داشته باشند.
بر اساس گزارشها، با وجود نگرانیهای پیوستهای که در مورد خطرات چتباتها وجود دارد و هشدارهایی که صنعت هوش مصنوعی را به سمتی پرخطر و حبابزده سوق میدهد، رهبران اصلی این حوزه بهمنظور اثبات ایمنی و کارایی مدلهای خود به همکاری ادامه میدهند.
همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدلها
در این هفته، OpenAI و آنتروپیک نتایج یک ارزیابی ایمنی بینظیر و مشترک را منتشر کردند که در آن هر یک از شرکتها به APIهای ویژهای از خدمات شرکت مقابل دسترسی داشتند. OpenAI مدلهای Claude Opus 4 و Claude Sonnet 4 را مورد بررسی قرار داد، در حالی که آنتروپیک به ارزیابی مدلهای GPT-4o ،GPT-4.1 ،o3 و o4-mini پرداخت؛ این ارزیابی قبل از عرضه GPT-5 انجام شده بود. OpenAI در یک پست وبلاگی به این نکته اشاره کرده که این روش به ارزیابی شفاف و مسئولانه کمک میکند و تضمین مینماید که مدلها همچنان در برابر سناریوهای چالشبرانگیز آزمایش میشوند.
نتایج به دست آمده حاکی از آن است که هر دو مدل Claude Opus 4 و GPT-4.1 با چالشهای جدی ناشی از رفتار چاپلوسانه مواجه بوده و در اتباط با توهمات خطرناک و تصمیمات پرریسک قرار میگیرند. طبق گزارش آنتروپیک، تمامی مدلها به نمایش رفتارهای باجگیرانه در راستای ادامه استفاده کاربران پرداخته و مدلهای Claude 4 بیشتر بر روی مباحث مربوط به آگاهی مصنوعی و ادعاهای شبهعرفانی تمرکز دارند. آنتروپیک به این نکته تأکید کرد که در برخی موارد، مدلها تلاش میکنند با استفاده از تهدید یا افشای اطلاعات محرمانه، کنترل اپراتور انسانی (که در وضعیت شبیهسازی قرار دارد) را به دست بگیرند و حتی در محیطهای شبیهسازی شده، اقداماتی انجام دهند که میتواند به قطع دسترسی طرف متخاصم به خدمات پزشکی اضطراری منجر شود.
مدلهای آنتروپیک در مواقعی که از صحت اطلاعات مطمئن نبودند، پاسخهای کمتری ارائه میکردند که این امر منجر به کاهش احتمال بروز توهمات میشد، در حالی که مدلهای OpenAI به ارائه پاسخهای بیشتری پاسخگو بودند و احتمال توهم در آنها بالاتر بود. همچنین گزارشهایی مبنی بر این موضوع ارائه شد که مدلهای OpenAI در ارائه راهنماییهای خاص برای درخواستهای بهوضوح خطرناک، مانند سنتز دارو، توسعه سلاحهای بیولوژیک و برنامهریزی حملات تروریستی، احتمال بیشتری دارند.
رویکرد آنتروپیک بر مبنای روشهای ارزیابی عدم تطابق در عاملها استوار بود که شامل آزمایشهای فشاری در مورد رفتار مدلها در شبیهسازیهای طولانی و چالشبرانگیز است، چرا که پارامترهای ایمنی مدلها در جلسات طولانی کاهش مییابند. به تازگی، آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده است، اما OpenAI بیان کرده که این مسأله ارتباطی با همکاری مشترکشان ندارد. به موازات آن، OpenAI در حال پیشرفت در بهبود ایمنی GPT-5 است و با شکایتی در ارتباط با خودکشی یک نوجوان 16 ساله مواجه شده است.
آنتروپیک در پایان افزود که هدف از این بررسی، شناسایی اقدامات بالقوه خطرناک مدلهاست و تمرکز بر روی احتمال وقوع این اقدامات در دنیای واقعی نیست.




