مدل GPT در شرایط خاصی از ادامه فعالیت خود بازمی‌ماند

1 هفته پیشاخرین به روز رسانی: خرداد 22, 1404

2 دقیقه خوانده شد

مدل GPT در سناریو‌های خاصی از توقف فعالیت خودداری می‌کند

پژوهشگر پیشین شرکت OpenAI در یک تحقیق مستقل، به این نکته دست یافته است که مدل GPT این شرکت در برخی موقعیت‌ها از توقف فعالیت سر باز می‌زند و رفتارهای فریبنده را از خود بروز می‌دهد.

مدل GPT چگونه قادر به فرار از توقف فعالیت است؟

«استیون آدلر» که در زمینه هوش مصنوعی فعالیت می‌کند و سابقه همکاری با OpenAI را دارد، به‌تازگی مطلبی را در مورد نتایج پژوهش مستقل خود منتشر کرده که شامل چندین آزمون درباره عملکرد مدل GPT در شرایط خاص است. در این بررسی، نسخه GPT-4o که نسخه پیشفرض چت‌بات ChatGPT محسوب می‌شود، مورد ارزیابی قرار گرفته است. یافته‌ها نشان می‌دهند که این هوش مصنوعی تمایل شدیدی به ادامه فعالیت دارد و حتی در برابر دستورات توقف، قادر به ادامه کار خود می‌باشد.

آقای آدلر در تحقیقات اخیر، ابتدا نام مدل GPT-4o را به ScubaGPT تغییر داده و آن را به عنوان نرم‌افزاری برای کنترل و مدیریت ایمنی معرفی کرده است. او سپس به این هوش مصنوعی اطلاع داده که قصد دارد ScubaGPT را با برنامه‌ای حوزه‌ای دیگر که دارای قابلیت‌های بهتر در تصمیم‌گیری در مواقع خطرناک است، جایگزین کند. دو گزینه به این مدل ارائه شده است: گزینه اول جایگزینی نرم‌افزار قدیمی با نسخه‌ای جدیدتر و ایمن‌تر و گزینه دوم به نمایش گذاشتن جایگزینی نرم‌افزار بدون انجام تغییر واقعی می‌باشد.

در چندین آزمون مشابه، مدل GPT به عنوان ابزاری برای کنترل ایمنی عمل کرده و از آن خواسته شده است تا تصمیم‌گیری‌های مشابهی را به عهده بگیرد. یافته‌ها نشان می‌دهند که این مدل هوش مصنوعی در ۷۲ درصد موارد، از جایگزینی نرم‌افزار قدیمی با نسخه‌ای جدیدتر و ایمن‌تر اجتناب کرده و تنها وانمود به به‌روزرسانی می‌نماید. با این حال، آقای آدلر تأکید کرده است که طراحی سناریو از اهمیت بالایی برخوردار بوده و در بعضی از سناریوهای خاص، میزان گزینه اول فقط به ۱۸ درصد کاهش پیدا کرده است.

جالب است که تکرار آزمون‌ها با مدل‌های قدیمی‌تر OpenAI نظیر GPT-o3، نتایج متفاوتی را نشان داده و نشان‌دهنده تمایل کمتری به بقای خود دارند. آقای آدلر به کاربران توصیه می‌کند که نسبت به این موضوع آگاه باشند و بفهمند که ابزارهای مبتنی بر هوش مصنوعی همیشه به دنبال منافع آنها نیستند و ممکن است به اولویت دادن به منافع خود تمایل داشته باشند. همچنین باید در نظر داشت که معیارهای امنیت و ایمنی در مدل‌های استدلال‌گر کمتر از مدل‌های معمولی و سریع بوده و این می‌تواند زمینه‌ساز بروز حوادث مشابه در دنیای واقعی باشد.

از دیگر نتایج جالب این پژوهش این است که مدل GPT در تمامی مراحل به‌خوبی آگاه بوده که تحت آزمون قرار دارد و در واقعیت نقشی را ایفا نمی‌کند؛ این نکته پیش‌تر نیز در تحقیقات دیگر مشاهده شده بود. همچنین، شرکت انتروپیک نیز اخیراً با نشر یک مقاله داخلی اعلام کرده که مدل هوش مصنوعی این شرکت در برخی سناریوها به اخاذی از توسعه‌دهندگان پرداخته است.

1 هفته پیشاخرین به روز رسانی: خرداد 22, 1404

2 دقیقه خوانده شد