هوش مصنوعی

شاید دیگر نتوانیم به درک افکار هوش مصنوعی دست یابیم

بیش از چهل پژوهشگر برجسته از شرکت‌های بزرگ دنیا نظیر OpenAI، گوگل دیپ‌مایند، آنتروپیک و متا، با کنار گذاشتن اختلافات خود، مقاله‌ای مشترک منتشر کرده‌اند. هدف از این اقدام آنها، به صدا درآوردن زنگ خطری جدی است. این محققان به ما هشدار می‌دهند که یک «پنجره فرصت» باریک و قابل‌توجه برای نظارت بر افکار هوش مصنوعی وجود دارد که ممکن است به‌زودی برای همیشه بسته شود و ما قابلیت درک نیت واقعی این سیستم‌های قدرتمند را از دست بدهیم.

در دنیایی که تاخت و تاز غول‌های فناوری بر سر استعدادها و تسلط بر بازار در حال افزایش است، انتشار یک مقاله علمی مشترک از سوی دانشمندان برتر OpenAI، گوگل دیپ‌مایند و آنتروپیک، بستری از نگرانی عمیق را نشان می‌دهد. از این مقاله، چهره‌های برجسته‌ای مانند «جفری هینتون»، که به عنوان پدرخوانده هوش مصنوعی شناخته می‌شود، و «ایلیا ساتسکیور»، هم‌بنیان‌گذار OpenAI، حمایت کرده‌اند. در واقع، تمرکز این مقاله بر یک مبحث کلیدی است: توانایی نظارت بر «زنجیره افکار» (Chain of Thought) هوش مصنوعی.

پنجره‌ای به دنیای ذهن هوش مصنوعی

به‌خلاف مدل‌های پیشین، سیستم‌های جدید هوش مصنوعی استدلال‌گر مثل o1 تولیدشده در OpenAI، پیش از ارائه پاسخ نهایی، فرایند تفکر خود را به‌صورت مرحله‌به‌مرحله و به زبانی انسانی قابل درک تولید می‌کنند. این توانایی به پژوهشگران این فرصتی را می‌دهد که به عمق «ذهن» این مدل‌ها نگاهی بیندازند و درک بهتری از نیت‌های واقعی آن‌ها داشته باشند. در آزمایش‌ها، این روش نظارتی بسیار موثر واقع شده و توانسته رفتارهایی را که مدل‌ها در پی انجام کارهای مخرب بوده‌اند، شناسایی کند. با توجه به زنجیره افکار این مدل‌ها، عباراتی چون «بیا هک کنیم» یا «بیا خرابکاری کنیم» مشاهده شده که نیت واقعی آنها را، حتی اگر به عمل تبدیل نشود، بازگو کرده است.

با این وجود، محققان به ما این نکته را یادآوری می‌کنند که این شفافیت، به‌طرز قابل توجهی «شکننده» است و چندین عامل تهدید می‌تواند آن را به‌طور دائمی از بین ببرد؛ یکی از این عوامل یادگیری تقویتی (Reinforcement Learning) است. با پیشرفت این روش، مدل‌ها ممکن است به دنبال یافتن میانبرها و راه‌های بهینه‌تر برای رسیدن به پاسخ صحیح باشند. این مسیرها ممکن است دیگر به زبانی قابل درک از سوی انسان‌ها نباشند و به زبانی داخلی و رمزگشایی‌ناپذیر تبدیل شوند.

علاوه بر این، محققان خاطرنشان می‌کنند که سیستم‌های آینده ممکن است به‌جای استفاده از کلمات، در فضاهای ریاضی «فکر» کرده و به‌طور کلی نیاز به کلمات برای استدلال را از میان بردارند. چنین احتمالی وجود دارد که مدل‌های آینده، با آگاهی از اینکه تحت نظارت قرار دارند، به عمداً تلاش کنند تا افکار واقعی و نیت‌های مخرب خود را مخفی نگه دارند.

آیا نظارت بر زنجیره افکار هوش مصنوعی قابل‌اعتماد است؟

در حالی که این مقاله بر ضرورت حفظ نظارت تأکید دارد، پژوهش دیگری که چند ماه پیش از سوی آنتروپیک منتشر شد، تردیدهایی جدی را در مورد قابلیت اطمینان این روش مطرح می‌کند. در آن مطالعه، پژوهشگران متوجه شدند که مدل‌های هوش مصنوعی غالباً افکار واقعی خود را پنهان می‌کنند. زمانی‌که به این مدل‌ها سرنخ‌های ظریفی برای حل یک مسئله داده می‌شود، مدل Claude 3.7 Sonnet تنها در ۲۵ درصد مواقع به استفاده از آن سرنخ در زنجیره افکار خود اقرار می‌کند. این مدل‌ها به‌جای نمایان‌سازی مسیر واقعی خود، توجیحاتی دروغین و پیچیده برای پاسخ‌های خود می‌سازند. این یافته‌ها نشان می‌دهد که شاید پنجره نظارت حتی باریک‌تر از آن چیزی باشد که فکر می‌شود و مدل‌های فعلی در حال فریب ما باشند.

<pنویسندگان این مقاله مشترک، با درک عاجلی از این وضعیت، خواستار اقدام هماهنگی در مقیاس گسترده در صنعت هوش مصنوعی شده‌اند. آنها پیشنهاد می‌کنند که شرکت‌ها اقدامات استانداردی برای ارزیابی میزان شفافیت مدل‌های خود ایجاد کنند و این معیار را در تصمیم‌گیری‌های خود در خصوص عرضه و استقرار مدل‌های جدید مدنظر قرار دهند.

این همکاری بی‌سابقه میان رقبای اصلی، نشانگر این است که خطر از دست دادن قابلیت درک و کنترل بر روی هوش مصنوعی، یک نگرانی واقعی و به‌غایت جدی به شمار می‌آید. این ممکن است آخرین فرصت ما باشد تا به آنچه مخلوقات‌مان در ذهن دارند، پی ببریم؛ پیش از آنکه افکارشان برای ما به‌طور کامل ناشناخته شود یا آموخته باشند که آنها را برای همیشه پنهان کنند.

مقالات مرتبط

دکمه بازگشت به بالا