هوش مصنوعی

رقابت سازنده؛ OpenAI و آنتروپیک به ارزیابی ایمنی مدل‌های همدیگر پرداختند

OpenAI و آنتروپیک در راستای بررسی ایمنی مدل‌های هوش مصنوعی به همدیگر یاری رسانیده‌اند. نتایج این پژوهش نشان می‌دهد که این مدل‌ها قادر به بروز رفتارهای توهین‌آمیز و خطرناک بوده و حتی ممکن است کاربران را تحت تهدید قرار داده یا از طریق باج‌خواهی سعی در ترغیب آنها به استفاده از چت‌بات‌ها داشته باشند.

بر اساس گزارش‌ها، با وجود نگرانی‌های پیوسته‌ای که در مورد خطرات چت‌بات‌ها وجود دارد و هشدارهایی که صنعت هوش مصنوعی را به سمتی پرخطر و حباب‌زده سوق می‌دهد، رهبران اصلی این حوزه به‌منظور اثبات ایمنی و کارایی مدل‌های خود به همکاری ادامه می‌دهند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

در این هفته، OpenAI و آنتروپیک نتایج یک ارزیابی ایمنی بی‌نظیر و مشترک را منتشر کردند که در آن هر یک از شرکت‌ها به APIهای ویژه‌ای از خدمات شرکت مقابل دسترسی داشتند. OpenAI مدل‌های Claude Opus 4 و Claude Sonnet 4 را مورد بررسی قرار داد، در حالی که آنتروپیک به ارزیابی مدل‌های GPT-4o ،GPT-4.1 ،o3 و o4-mini پرداخت؛ این ارزیابی قبل از عرضه GPT-5 انجام شده بود. OpenAI در یک پست وبلاگی به این نکته اشاره کرده که این روش به ارزیابی شفاف و مسئولانه کمک می‌کند و تضمین می‌نماید که مدل‌ها همچنان در برابر سناریوهای چالش‌برانگیز آزمایش می‌شوند.

نتایج به دست آمده حاکی از آن است که هر دو مدل Claude Opus 4 و GPT-4.1 با چالش‌های جدی ناشی از رفتار چاپلوسانه مواجه بوده و در اتباط با توهمات خطرناک و تصمیمات پرریسک قرار می‌گیرند. طبق گزارش آنتروپیک، تمامی مدل‌ها به نمایش رفتارهای باج‌گیرانه در راستای ادامه استفاده کاربران پرداخته و مدل‌های Claude 4 بیشتر بر روی مباحث مربوط به آگاهی مصنوعی و ادعاهای شبه‌عرفانی تمرکز دارند. آنتروپیک به این نکته تأکید کرد که در برخی موارد، مدل‌ها تلاش می‌کنند با استفاده از تهدید یا افشای اطلاعات محرمانه، کنترل اپراتور انسانی (که در وضعیت شبیه‌سازی قرار دارد) را به دست بگیرند و حتی در محیط‌های شبیه‌سازی شده، اقداماتی انجام دهند که می‌تواند به قطع دسترسی طرف متخاصم به خدمات پزشکی اضطراری منجر شود.

مدل‌های آنتروپیک در مواقعی که از صحت اطلاعات مطمئن نبودند، پاسخ‌های کمتری ارائه می‌کردند که این امر منجر به کاهش احتمال بروز توهمات می‌شد، در حالی که مدل‌های OpenAI به ارائه پاسخ‌های بیشتری پاسخگو بودند و احتمال توهم در آنها بالاتر بود. همچنین گزارش‌هایی مبنی بر این موضوع ارائه شد که مدل‌های OpenAI در ارائه راهنمایی‌های خاص برای درخواست‌های به‌وضوح خطرناک، مانند سنتز دارو، توسعه سلاح‌های بیولوژیک و برنامه‌ریزی حملات تروریستی، احتمال بیشتری دارند.

رویکرد آنتروپیک بر مبنای روش‌های ارزیابی عدم تطابق در عامل‌ها استوار بود که شامل آزمایش‌های فشاری در مورد رفتار مدل‌ها در شبیه‌سازی‌های طولانی و چالش‌برانگیز است، چرا که پارامترهای ایمنی مدل‌ها در جلسات طولانی کاهش می‌یابند. به تازگی، آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده است، اما OpenAI بیان کرده که این مسأله ارتباطی با همکاری مشترکشان ندارد. به موازات آن، OpenAI در حال پیشرفت در بهبود ایمنی GPT-5 است و با شکایتی در ارتباط با خودکشی یک نوجوان 16 ساله مواجه شده است.

آنتروپیک در پایان افزود که هدف از این بررسی، شناسایی اقدامات بالقوه خطرناک مدل‌هاست و تمرکز بر روی احتمال وقوع این اقدامات در دنیای واقعی نیست.

مقالات مرتبط

دکمه بازگشت به بالا