رقابت سازنده؛ OpenAI و آنتروپیک به ارزیابی ایمنی مدل‌های همدیگر پرداختند

آگوست 31, 2025اخرین به روز رسانی: آگوست 31, 2025

2 دقیقه خوانده شد

همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

OpenAI و آنتروپیک در راستای بررسی ایمنی مدل‌های هوش مصنوعی به همدیگر یاری رسانیده‌اند. نتایج این پژوهش نشان می‌دهد که این مدل‌ها قادر به بروز رفتارهای توهین‌آمیز و خطرناک بوده و حتی ممکن است کاربران را تحت تهدید قرار داده یا از طریق باج‌خواهی سعی در ترغیب آنها به استفاده از چت‌بات‌ها داشته باشند.

بر اساس گزارش‌ها، با وجود نگرانی‌های پیوسته‌ای که در مورد خطرات چت‌بات‌ها وجود دارد و هشدارهایی که صنعت هوش مصنوعی را به سمتی پرخطر و حباب‌زده سوق می‌دهد، رهبران اصلی این حوزه به‌منظور اثبات ایمنی و کارایی مدل‌های خود به همکاری ادامه می‌دهند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

در این هفته، OpenAI و آنتروپیک نتایج یک ارزیابی ایمنی بی‌نظیر و مشترک را منتشر کردند که در آن هر یک از شرکت‌ها به APIهای ویژه‌ای از خدمات شرکت مقابل دسترسی داشتند. OpenAI مدل‌های Claude Opus 4 و Claude Sonnet 4 را مورد بررسی قرار داد، در حالی که آنتروپیک به ارزیابی مدل‌های GPT-4o ،GPT-4.1 ،o3 و o4-mini پرداخت؛ این ارزیابی قبل از عرضه GPT-5 انجام شده بود. OpenAI در یک پست وبلاگی به این نکته اشاره کرده که این روش به ارزیابی شفاف و مسئولانه کمک می‌کند و تضمین می‌نماید که مدل‌ها همچنان در برابر سناریوهای چالش‌برانگیز آزمایش می‌شوند.

نتایج به دست آمده حاکی از آن است که هر دو مدل Claude Opus 4 و GPT-4.1 با چالش‌های جدی ناشی از رفتار چاپلوسانه مواجه بوده و در اتباط با توهمات خطرناک و تصمیمات پرریسک قرار می‌گیرند. طبق گزارش آنتروپیک، تمامی مدل‌ها به نمایش رفتارهای باج‌گیرانه در راستای ادامه استفاده کاربران پرداخته و مدل‌های Claude 4 بیشتر بر روی مباحث مربوط به آگاهی مصنوعی و ادعاهای شبه‌عرفانی تمرکز دارند. آنتروپیک به این نکته تأکید کرد که در برخی موارد، مدل‌ها تلاش می‌کنند با استفاده از تهدید یا افشای اطلاعات محرمانه، کنترل اپراتور انسانی (که در وضعیت شبیه‌سازی قرار دارد) را به دست بگیرند و حتی در محیط‌های شبیه‌سازی شده، اقداماتی انجام دهند که می‌تواند به قطع دسترسی طرف متخاصم به خدمات پزشکی اضطراری منجر شود.

مدل‌های آنتروپیک در مواقعی که از صحت اطلاعات مطمئن نبودند، پاسخ‌های کمتری ارائه می‌کردند که این امر منجر به کاهش احتمال بروز توهمات می‌شد، در حالی که مدل‌های OpenAI به ارائه پاسخ‌های بیشتری پاسخگو بودند و احتمال توهم در آنها بالاتر بود. همچنین گزارش‌هایی مبنی بر این موضوع ارائه شد که مدل‌های OpenAI در ارائه راهنمایی‌های خاص برای درخواست‌های به‌وضوح خطرناک، مانند سنتز دارو، توسعه سلاح‌های بیولوژیک و برنامه‌ریزی حملات تروریستی، احتمال بیشتری دارند.

رویکرد آنتروپیک بر مبنای روش‌های ارزیابی عدم تطابق در عامل‌ها استوار بود که شامل آزمایش‌های فشاری در مورد رفتار مدل‌ها در شبیه‌سازی‌های طولانی و چالش‌برانگیز است، چرا که پارامترهای ایمنی مدل‌ها در جلسات طولانی کاهش می‌یابند. به تازگی، آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده است، اما OpenAI بیان کرده که این مسأله ارتباطی با همکاری مشترکشان ندارد. به موازات آن، OpenAI در حال پیشرفت در بهبود ایمنی GPT-5 است و با شکایتی در ارتباط با خودکشی یک نوجوان 16 ساله مواجه شده است.

آنتروپیک در پایان افزود که هدف از این بررسی، شناسایی اقدامات بالقوه خطرناک مدل‌هاست و تمرکز بر روی احتمال وقوع این اقدامات در دنیای واقعی نیست.

آگوست 31, 2025اخرین به روز رسانی: آگوست 31, 2025

2 دقیقه خوانده شد

رقابت سازنده؛ OpenAI و آنتروپیک به ارزیابی ایمنی مدل‌های همدیگر پرداختند

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

نانوبنانا؛ مدل جدید گوگل که کاربران آن را «قاتل فتوشاپ» می‌نامند

شتاب‌دهنده پارالاکس در حال تدوین «گزارش چالش‌های صنعت بازی ایران» است

آموزش مدیریت موجودی Apple ID Balance؛ چطور دقیق بفهمیم چقدر اعتبار داریم؟

خرید یوسی پابجی موبایل با بهترین قیمت و تحویل فوری از واریا شاپ

بازی های 2026 PS5؛ منتظر چه عناوینی باشیم؟

مایکروسافت قابلیت «Copilot Mode» را به مرورگر Edge اضافه کرد

مدیر عامل ناشر GTA: هوش مصنوعی صرفاً یک «تردستی» محسوب می‌شود

احتمال انتشار بسته الحاقی مورد نظر برای بازی Silent Hill 2 Remake تقویت شد

این استاد ژاپنی از یک بازی ترسناک برای تدریس زبان در کنسول PS4 بهره می‌برد

پیشرفت محققان چینی؛ شبیه‌سازی شیمی کوانتومی به کمک ابرکامپیوتر کلاسیک

مادربرد Z890 AORUS Tachyon Ice از گیگابایت به رکورد جهانی DDR5-13010 دست یافت

بازگشت پورشه به استفاده از پیشرانه‌های بنزینی؛ کناره‌گیری از آرزوی خودروهای الکتریکی

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

یک فرد به خاطر پوشیدن لباس یکی از شخصیت‌های بازی Resident Evil دستگیر گردید

دوربین پیکسل 10 پرو XL موفق به پشت سر گذاشتن آیفون 16 پرو مکس در ارزیابی DxOMark شد

مقالات مرتبط

تشخیص گرایش سیاسی افراد از روی چهره

بنیان گذار Alibaba برای صحبت درباره هوش مصنوعی در ملأعام ظاهر شد

آیا chatGPT قاتل خلاقیت است؟

OpenAI به خالقان آثار هنری امکانات بیشتری در Sora می‌دهد