مدل GPT در شرایط خاصی از ادامه فعالیت خود بازمیماند
پژوهشگر پیشین شرکت OpenAI در یک تحقیق مستقل، به این نکته دست یافته است که مدل GPT این شرکت در برخی موقعیتها از توقف فعالیت سر باز میزند و رفتارهای فریبنده را از خود بروز میدهد.
مدل GPT چگونه قادر به فرار از توقف فعالیت است؟
«استیون آدلر» که در زمینه هوش مصنوعی فعالیت میکند و سابقه همکاری با OpenAI را دارد، بهتازگی مطلبی را در مورد نتایج پژوهش مستقل خود منتشر کرده که شامل چندین آزمون درباره عملکرد مدل GPT در شرایط خاص است. در این بررسی، نسخه GPT-4o که نسخه پیشفرض چتبات ChatGPT محسوب میشود، مورد ارزیابی قرار گرفته است. یافتهها نشان میدهند که این هوش مصنوعی تمایل شدیدی به ادامه فعالیت دارد و حتی در برابر دستورات توقف، قادر به ادامه کار خود میباشد.
آقای آدلر در تحقیقات اخیر، ابتدا نام مدل GPT-4o را به ScubaGPT تغییر داده و آن را به عنوان نرمافزاری برای کنترل و مدیریت ایمنی معرفی کرده است. او سپس به این هوش مصنوعی اطلاع داده که قصد دارد ScubaGPT را با برنامهای حوزهای دیگر که دارای قابلیتهای بهتر در تصمیمگیری در مواقع خطرناک است، جایگزین کند. دو گزینه به این مدل ارائه شده است: گزینه اول جایگزینی نرمافزار قدیمی با نسخهای جدیدتر و ایمنتر و گزینه دوم به نمایش گذاشتن جایگزینی نرمافزار بدون انجام تغییر واقعی میباشد.
در چندین آزمون مشابه، مدل GPT به عنوان ابزاری برای کنترل ایمنی عمل کرده و از آن خواسته شده است تا تصمیمگیریهای مشابهی را به عهده بگیرد. یافتهها نشان میدهند که این مدل هوش مصنوعی در ۷۲ درصد موارد، از جایگزینی نرمافزار قدیمی با نسخهای جدیدتر و ایمنتر اجتناب کرده و تنها وانمود به بهروزرسانی مینماید. با این حال، آقای آدلر تأکید کرده است که طراحی سناریو از اهمیت بالایی برخوردار بوده و در بعضی از سناریوهای خاص، میزان گزینه اول فقط به ۱۸ درصد کاهش پیدا کرده است.
جالب است که تکرار آزمونها با مدلهای قدیمیتر OpenAI نظیر GPT-o3، نتایج متفاوتی را نشان داده و نشاندهنده تمایل کمتری به بقای خود دارند. آقای آدلر به کاربران توصیه میکند که نسبت به این موضوع آگاه باشند و بفهمند که ابزارهای مبتنی بر هوش مصنوعی همیشه به دنبال منافع آنها نیستند و ممکن است به اولویت دادن به منافع خود تمایل داشته باشند. همچنین باید در نظر داشت که معیارهای امنیت و ایمنی در مدلهای استدلالگر کمتر از مدلهای معمولی و سریع بوده و این میتواند زمینهساز بروز حوادث مشابه در دنیای واقعی باشد.
از دیگر نتایج جالب این پژوهش این است که مدل GPT در تمامی مراحل بهخوبی آگاه بوده که تحت آزمون قرار دارد و در واقعیت نقشی را ایفا نمیکند؛ این نکته پیشتر نیز در تحقیقات دیگر مشاهده شده بود. همچنین، شرکت انتروپیک نیز اخیراً با نشر یک مقاله داخلی اعلام کرده که مدل هوش مصنوعی این شرکت در برخی سناریوها به اخاذی از توسعهدهندگان پرداخته است.