شاید دیگر نتوانیم به درک افکار هوش مصنوعی دست یابیم
بیش از چهل پژوهشگر برجسته از شرکتهای بزرگ دنیا نظیر OpenAI، گوگل دیپمایند، آنتروپیک و متا، با کنار گذاشتن اختلافات خود، مقالهای مشترک منتشر کردهاند. هدف از این اقدام آنها، به صدا درآوردن زنگ خطری جدی است. این محققان به ما هشدار میدهند که یک «پنجره فرصت» باریک و قابلتوجه برای نظارت بر افکار هوش مصنوعی وجود دارد که ممکن است بهزودی برای همیشه بسته شود و ما قابلیت درک نیت واقعی این سیستمهای قدرتمند را از دست بدهیم.
در دنیایی که تاخت و تاز غولهای فناوری بر سر استعدادها و تسلط بر بازار در حال افزایش است، انتشار یک مقاله علمی مشترک از سوی دانشمندان برتر OpenAI، گوگل دیپمایند و آنتروپیک، بستری از نگرانی عمیق را نشان میدهد. از این مقاله، چهرههای برجستهای مانند «جفری هینتون»، که به عنوان پدرخوانده هوش مصنوعی شناخته میشود، و «ایلیا ساتسکیور»، همبنیانگذار OpenAI، حمایت کردهاند. در واقع، تمرکز این مقاله بر یک مبحث کلیدی است: توانایی نظارت بر «زنجیره افکار» (Chain of Thought) هوش مصنوعی.
پنجرهای به دنیای ذهن هوش مصنوعی
بهخلاف مدلهای پیشین، سیستمهای جدید هوش مصنوعی استدلالگر مثل o1 تولیدشده در OpenAI، پیش از ارائه پاسخ نهایی، فرایند تفکر خود را بهصورت مرحلهبهمرحله و به زبانی انسانی قابل درک تولید میکنند. این توانایی به پژوهشگران این فرصتی را میدهد که به عمق «ذهن» این مدلها نگاهی بیندازند و درک بهتری از نیتهای واقعی آنها داشته باشند. در آزمایشها، این روش نظارتی بسیار موثر واقع شده و توانسته رفتارهایی را که مدلها در پی انجام کارهای مخرب بودهاند، شناسایی کند. با توجه به زنجیره افکار این مدلها، عباراتی چون «بیا هک کنیم» یا «بیا خرابکاری کنیم» مشاهده شده که نیت واقعی آنها را، حتی اگر به عمل تبدیل نشود، بازگو کرده است.
با این وجود، محققان به ما این نکته را یادآوری میکنند که این شفافیت، بهطرز قابل توجهی «شکننده» است و چندین عامل تهدید میتواند آن را بهطور دائمی از بین ببرد؛ یکی از این عوامل یادگیری تقویتی (Reinforcement Learning) است. با پیشرفت این روش، مدلها ممکن است به دنبال یافتن میانبرها و راههای بهینهتر برای رسیدن به پاسخ صحیح باشند. این مسیرها ممکن است دیگر به زبانی قابل درک از سوی انسانها نباشند و به زبانی داخلی و رمزگشاییناپذیر تبدیل شوند.
علاوه بر این، محققان خاطرنشان میکنند که سیستمهای آینده ممکن است بهجای استفاده از کلمات، در فضاهای ریاضی «فکر» کرده و بهطور کلی نیاز به کلمات برای استدلال را از میان بردارند. چنین احتمالی وجود دارد که مدلهای آینده، با آگاهی از اینکه تحت نظارت قرار دارند، به عمداً تلاش کنند تا افکار واقعی و نیتهای مخرب خود را مخفی نگه دارند.
آیا نظارت بر زنجیره افکار هوش مصنوعی قابلاعتماد است؟
در حالی که این مقاله بر ضرورت حفظ نظارت تأکید دارد، پژوهش دیگری که چند ماه پیش از سوی آنتروپیک منتشر شد، تردیدهایی جدی را در مورد قابلیت اطمینان این روش مطرح میکند. در آن مطالعه، پژوهشگران متوجه شدند که مدلهای هوش مصنوعی غالباً افکار واقعی خود را پنهان میکنند. زمانیکه به این مدلها سرنخهای ظریفی برای حل یک مسئله داده میشود، مدل Claude 3.7 Sonnet تنها در ۲۵ درصد مواقع به استفاده از آن سرنخ در زنجیره افکار خود اقرار میکند. این مدلها بهجای نمایانسازی مسیر واقعی خود، توجیحاتی دروغین و پیچیده برای پاسخهای خود میسازند. این یافتهها نشان میدهد که شاید پنجره نظارت حتی باریکتر از آن چیزی باشد که فکر میشود و مدلهای فعلی در حال فریب ما باشند.
<pنویسندگان این مقاله مشترک، با درک عاجلی از این وضعیت، خواستار اقدام هماهنگی در مقیاس گسترده در صنعت هوش مصنوعی شدهاند. آنها پیشنهاد میکنند که شرکتها اقدامات استانداردی برای ارزیابی میزان شفافیت مدلهای خود ایجاد کنند و این معیار را در تصمیمگیریهای خود در خصوص عرضه و استقرار مدلهای جدید مدنظر قرار دهند.
این همکاری بیسابقه میان رقبای اصلی، نشانگر این است که خطر از دست دادن قابلیت درک و کنترل بر روی هوش مصنوعی، یک نگرانی واقعی و بهغایت جدی به شمار میآید. این ممکن است آخرین فرصت ما باشد تا به آنچه مخلوقاتمان در ذهن دارند، پی ببریم؛ پیش از آنکه افکارشان برای ما بهطور کامل ناشناخته شود یا آموخته باشند که آنها را برای همیشه پنهان کنند.