مقاله تازهای به تردید اپل در مورد محدودیتهای مدلهای استدلالگر پاسخ داد
گروه یادگیری ماشینی اپل اخیراً مقالهای تحت عنوان «توهم تفکر» (The Illusion of Thinking) منتشر کرد که واکنشهای زیادی در میان پژوهشگران حوزه هوش مصنوعی بهوجود آورد. در این نوشتار، پژوهشگران ادعا نمودهاند که مدلهای زبانی موجود در واقع قادر به انجام تفکر یا استدلال مستقل نیستند. اکنون مقالهای جدید منتشر شده است که ادعاهای محققان اپل را به چالش کشیده است.
«الکن لاسن»، محقق در Open Philanthropy، در مقالهای تازه ادعا کرده که یافتههای محققان اپل بیشتر ناشی از مشکلات طراحی هوش مصنوعی بوده و نه محدودیتهای بنیادی در حوزه استدلال. همچنین، این مقاله به مدل Claude Opus شرکت آنتروپیک نیز اشاره کرده است.
مقاله لاسن با عنوان «توهم توهم تفکر» یا The Illusion of the Illusion of Thinking به روشنی مشکلات موجود در مدلهای استدلالگر کنونی در حل معماهای پیچیده را رد نمیکند، اما بیان میکند که اپل، محدودیتهای عملی و پیکربندیهای نادرست را با انکار قابلیتهای استدلال اشتباه گرفته است. سه مسئله اصلی که لاسن در تناقض با مقاله اپل مطرح میکند، به شرح زیر است:
- عدم توجه به محدودیت توکنها در مقاله اپل: لاسن اشاره میکند که اپل نتیجهگیری میکند که هوش مصنوعی نمیتواند معماها را حل کند، در حالی که این مشکل در واقع به دلیل کمبود توکنها است و نه ناتوانی در استدلال.
- ناتوانی در حل معماهای حلناپذیر بهعنوان شکست نادیده گرفته شده است: در آزمون «عبور از رودخانه» بهظاهر معماهایی وجود داشته که حلشدنی نبودهاند. لاسن بیان میکند که اپل بهدلیل شناسایی این معماهای غیرممکن، مدلهای هوش مصنوعی را مورد سرزنش قرار داده است.
- عدم تمایز میان آزمونهای ارزیابی و شکست قابلیتهای استدلال: اپل از پایپلاینهای خودکار برای قضاوت در مورد مدلها استفاده کرده که فقط خروجی کامل و رسیدن به مراحل استدلال را موفق تلقی میکنند. لاسن بر این باور است که این رویکرد سببشده است تا هر خروجی جزئی یا راهبردی نیز بهعنوان شکست محسوب شود.
لاسن برای تأیید ادعاهای خود، آزمونهای اپل را در شرایط متفاوتی دوباره انجام داد و به این نتیجه رسید که با حذف محدودیتهای مصنوعی از خروجی، مدلهای استدلالگر بهخوبی قادر به حل مشکلات پیچیده هستند.
محققان اپل برای سنجش توانایی مدلهای زبانی در حل مسائل منطقی، چهار معمای کلاسیک شامل «برج هانوی» (تصویر بالا)، «دنیای بلوکها»، «معمای عبور از رودخانه» و «پرش مهرهها در بازی چکرز» را طراحی کردند.
این معماها که قدمت طولانی در پژوهشهای مرتبط با علوم شناختی و هوش مصنوعی دارند، با افزایش مراحل و محدودیتها پیچیدهتر میشوند و به برنامهریزی چندمرحلهای نیاز دارند. پژوهشگران انتظار داشتند که مدلها نهتنها به هر معما پاسخ نهایی دهند، بلکه روند تفکر خود را بهصورت مرحلهای با استفاده از تکنیک «زنجیره تفکر» (Chain-of-Thought Prompting) شرح دهند.
مطالعه اپل نشان داد که با افزایش پیچیدگی، دقت عملکرد مدلها بهطرز چشمگیری کاهش مییابد و در سختترین وظایف به صفر میرسد. اپل این کاهش را نشانهای از ناکامی در قدرت استدلال مدلها تلقی میکند.
مخالفت کاربران شبکههای اجتماعی با تحقیق اپل
بعضی از منتقدان تحقیق اپل بر این باورند که این شرکت تفاوت میان «ناتوانی در تولید خروجی کامل» و «ناتوانی در استدلال» را نادیده گرفته است. آنها تأکید کردهاند که مدلها حتی در برخی وظایف، استراتژیهای درستی را ارائه دادهاند، ولی بهدلیل محدودیت در تعداد توکنها نتوانستند خروجی را به صورت کامل ارائه کنند.
علاوه بر این، برخی معماها، مانند برخی نسخههای «عبور از رودخانه»، عملاً غیرقابل حل بودهاند، اما با این حال، مدلها بهخاطر پاسخهای نادرست جریمههایی دریافت کردهاند.