یادگیری تقویتی: مسیری برای دستیابی به هوش مصنوعی همهجانبه

حمیدرضا مازندرانی، پژوهشگر در زمینه شبکه و هوش مصنوعی، در یادداشت منحصر به فرد خود که برای دیجیاتو نوشته، به تاریخچه، نقش نهانی و چالشهای یادگیری تقویتی در فرآیند رشد هوش مصنوعی پرداخته است.
یادگیری تقویتی در طی چند دهه گذشته مسیر پرفراز و نشیبی را پشت سر گذاشته، مسیری که اکنون نسبت به قبل هموارتر و دلپذیرتر به نظر میرسد. اما این مسیر به کدام سمت پیش میرود و چه آیندهای میتوان برای آن متصور بود؟ یادداشت حاضر به بررسی این سؤالات میپردازد.
یادگیری تقویتی از طریق تعامل با محیط و دریافت پاداشهای مناسب، پارامترهای خود را بهبود میبخشد. به عبارت دیگر، این سیستم خود دیتاست خود را تولید میکند بدون اینکه به دادههای آموزشی برچسبدار و آماده احتیاج داشته باشد. این روش به عنوان مکملی برای یادگیریهای رایج به شمار میآید، به ویژه در زمینه مسائلی که پاسخ صحیح در هر موقعیت از پیش معین نیست.
دو دانشمند برجسته به نامهای «ریچارد ساتن» و «اندرو بارتو» پایهگذار چارچوب علمی یادگیری تقویتی به شکل فعلی آن در اواخر دهه ۷۰ میلادی (سال ۵۰ شمسی) بودند. البته ایدههای این حوزه، سالها قبل، یعنی در اوایل قرن بیستم، توسط روانشناسان مطرح شده بود. احتمالاً با آزمایش معروف «جعبه اسکینر» آشنا هستید که در آن حیوانات یاد میگرفتند با فشردن اهرم، غذا دریافت کنند.
با این حال، روانشناسان به زودی متوجه شدند که یادگیری تقویتی یک مدل بسیار ساده برای تبیین رفتارهای انسانی و حتی حیوانی است. یکی از مثالهای مشهور این موضوع پدیده «درماندگی آموختهشده» است که طبق آن موجودات زنده در شرایط ناامیدکننده، تلاشی برای رسیدن به حداکثر پاداش نمیکنند، برخلاف آنچه یادگیری تقویتی پیشبینی میکند.
وقتی ماشینها به قهرمانان شطرنج و Go تبدیل شدند
با این وجود، بزرگترین مانع یادگیری تقویتی در عرصه هوش مصنوعی، نیاز به تعاملات زیادی با محیط برای اینکه تنها کمی بهتر از یک عامل تصادفی عمل کند، بود. در نیمه دوم دهه گذشته میلادی، ترکیبی از پیشرفتهای سختافزاری، ظهور یادگیری عمیق و توسعه الگوریتمهای کارآمدتر، به رفع این مانع کمک کرد. در نتیجه، دیپمایند توانست با مدلهای هوشمند خود، قهرمانان شطرنج و بازی چینی Go را شکست دهد. این مدلها با استفاده از میلیونها بازی در قالب «خود-بازی» به این موفقیت شگفتانگیز دست یافته بودند.
اکنون همه شواهد نشان میداد که یادگیری تقویتی به ستارهای در آسمان هوش مصنوعی تبدیل خواهد شد، اما داستان به نحوی دیگر رقم خورد: مدلهای زبانی که بر اساس پیشبینی متن آموزش دیده بودند، انقلابی را به وجود آوردند که زندگی انسانها را دچار تغییرات بنیادین کرد. امروزه چتجیپیتی و رقبای آن به اجزای جداییناپذیری از زندگی افراد در سراسر جهان تبدیل شدهاند و مباحثی در خصوص بهبود قابلیتهای آنها در قالب «عاملیت هوشمند» مطرح میشود.
اما سرنوشت یادگیری تقویتی چه شد؟ جالب اینجاست که این روش نیز در پیشرفتهای اخیر مدلهای زبانی نقش بارزی ایفا کرده است. در واقع، مشکل مدلهای زبانی ابتدایی این بود که چندان برای تعامل با انسانها آماده نبودند. اما با آموزش این مدلها از طریق یادگیری تقویتی و پاداشدهی به پاسخهای آنها، زمینه مناسبتری برای تولید مدلهای سازگار با نیازهای کاربران فراهم آمده است.
RLHF و نقش انسان در تربیت چتجیپیتی
در سال 2017، شرکت دیپمایند، در همکاری با OpenAI (سازنده چتجیپیتی)، روشی را توسعه داد که به عنوان پایه الگوریتم RLHF (یادگیری تقویتی با فیدبک انسانی) شناخته میشود. در این الگوریتم، کاربران انسانی از میان دو پاسخ تولید شده توسط مدل زبانی، گزینهای را که مفیدتر و ایمنتر است، میکنند. با این ها، یک مدل پاداشدهی آموزش داده میشود که مبنای آموزش مدل اصلی است. به نوعی میتوان گفت مدل پاداشدهی به عنوان داور یا منتقد برای مدل زبانی عمل میکند.
با اینکه RLHF به مقیاسپذیری یادگیری تقویتی بر روی مدل اصلی کمک میکند، اما پژوهشگران قانع نشدند و ایدههای دیگری را مطرح کردند که به هیچ کاربر انسانی احتیاج ندارند. نتیجه این تلاشها شکلگیری روشهایی چون RLVR (یادگیری تقویتی با پاداشهای قابل تأیید) بوده که بر اساس پاسخ صحیح به مدل زبانی پاداش میدهد. پاسخ صحیح ممکن است شامل خروجی یک قطعه کد برنامهنویسی یا پاسخ نهایی یک مسئله ریاضی باشد. از این پس هرگاه مدلتان در کد نویسی به شما یاری کند، به یاد داشته باشید که این مدل نه تنها با پیشبینی متن، بلکه با کوششی برای یافتن پاسخهای صحیح مسائل کدنویسی نیز به این توانایی دست یافته است.
حال ممکن است وسوسه شویم تا ادعا کنیم هوش مصنوعی انساننما یا حتی فراتر از آن به زودی ممکن است، زیرا میتوان با ارائه پاداشهای مناسب، مدلها را روز به روز قویتر ساخت. در سال 2021، چندین پژوهشگر (از جمله ریچارد ساتن) مقالهای با عنوان «پاداش کافی است» منتشر کردند که به نوعی این خط فکری را ترویج میکرد. شاید در نظریه چنین باشد، اما در مراتب عملی با چالشهای جدی مواجه هستیم.
بسیاری از مسائل انسانی، نظیر مشاوره مدیریتی و یا نوشتن اشعار، پاداش قابل اندازهگیری ندارند. در پاسخ به این چالش، عدهای در تلاش هستند تا الگوریتمهای تحت عنوان RLAIF (یادگیری تقویتی با پاداشهای هوش مصنوعی) را توسعه دهند که در آن از هوش مصنوعی برای پاداشدهی به مدلهای زبانی استفاده میشود.
آیا پاداش، پلی به سوی هوش مصنوعی جامع است یا تنها سرابی است؟
حتی اگر تلاشها به نتیجهای برای ساخت یک مدل جامع پاداشدهی منجر شود که بتواند به مدل زبانی بگوید متنی که تولید کرده تا چه اندازه «خوب» است، مشکل مقیاسپذیری که همان مسأله قدیمی یادگیری تقویتی است، دوباره خود را نمایان میکند؛ به خصوص اینکه مدلهای کنونی به نوعی «استدلال» شدهاند، به این معنا که چندین بار خروجی تولید میکنند تا به یک خروجی نهایی برسند و این خصوصیت به معنای مصرف بیشتر منابع است.
با تمام این اوصاف، آیا یادگیری تقویتی ما را در نهایت به تحقق هوش مصنوعی جامع (AGI) رهنمون خواهد کرد؟ این سؤال از جوانب مختلفی پیچیده است. اول اینکه بسیاری بر این عقیدهاند که چیزی به نام «هوش مصنوعی جامع» وجود ندارد. اگر هدف به دستیابی به سطح هوش انسانی باشد، در حال حاضر در برخی حوزهها انسانها قادر نیستند در مقابل هوش مصنوعی رقابت کنند. اگر هدف، رسیدن به همگونی و تعادل در میان مهارتهاست، مشخص نیست که کدام مهارتها با چه معیاری باید سنجیده شوند. بنابراین تا زمانی که مقصد بهطور دقیق مشخص نشود، سنجش فاصله به سمت آن فاقد معنا خواهد بود.
چالش دیگری که وجود دارد آن است که روند تحقیق و توسعه به صورت تکاملی و بدون یک متفکر واحد در حال پیشروی است. دیپمایند پس از ظهور مدلهای زبانی به دلیل تمرکز بر یادگیری تقویتی مورد انتقاد قرار گرفت؛ و ممکن است اگر تاریخ دوباره تکرار میشد، هرگز در این حوزه سرمایهگذاری نمیکرد و ما از پیشرفتهای بالقوه آن بیبهره میماندیم. بنابراین مسئله تعیین مسیر پیش رو کاملاً به تصمیمات پژوهشگران و سرمایهگذاران وابسته است و کمتر به قابلیتهای ذاتی فناوریها مربوط میشود!
در نهایت، نباید فراموش کرد که تحقیق همیشه پتانسیل شگفتزنی دارد و چه بسا یک فناوری جدید ظهور کند، یا یک ایده قدیمی با ویژگیهای تازهای احیا شده و یادگیری تقویتی را تکمیل کند (یا حتی تقویت نماید!).



