هوش مصنوعی

یادگیری تقویتی: مسیری برای دستیابی به هوش مصنوعی همه‌جانبه

حمیدرضا مازندرانی، پژوهشگر در زمینه شبکه و هوش مصنوعی، در یادداشت منحصر به فرد خود که برای دیجیاتو نوشته، به تاریخچه، نقش نهانی و چالش‌های یادگیری تقویتی در فرآیند رشد هوش مصنوعی پرداخته است.

یادگیری تقویتی در طی چند دهه گذشته مسیر پرفراز و نشیبی را پشت سر گذاشته، مسیری که اکنون نسبت به قبل هموارتر و دلپذیرتر به نظر می‌رسد. اما این مسیر به کدام سمت پیش می‌رود و چه آینده‌ای می‌توان برای آن متصور بود؟ یادداشت حاضر به بررسی این سؤالات می‌پردازد.

یادگیری تقویتی از طریق تعامل با محیط و دریافت پاداش‌های مناسب، پارامترهای خود را بهبود می‌بخشد. به عبارت دیگر، این سیستم خود دیتاست خود را تولید می‌کند بدون اینکه به داده‌های آموزشی برچسب‌دار و آماده احتیاج داشته باشد. این روش به عنوان مکملی برای یادگیری‌های رایج به شمار می‌آید، به ویژه در زمینه مسائلی که پاسخ صحیح در هر موقعیت از پیش معین نیست.

دو دانشمند برجسته به نام‌های «ریچارد ساتن» و «اندرو بارتو» پایه‌گذار چارچوب علمی یادگیری تقویتی به شکل فعلی آن در اواخر دهه ۷۰ میلادی (سال ۵۰ شمسی) بودند. البته ایده‌های این حوزه، سال‌ها قبل، یعنی در اوایل قرن بیستم، توسط روانشناسان مطرح شده بود. احتمالاً با آزمایش معروف «جعبه اسکینر» آشنا هستید که در آن حیوانات یاد می‌گرفتند با فشردن اهرم، غذا دریافت کنند.

آزمایش معروف «جعبه اسکینر» جهت بررسی واکنش‌های حیوانات به پاداش (مرجع: فوربز)

با این حال، روانشناسان به زودی متوجه شدند که یادگیری تقویتی یک مدل بسیار ساده برای تبیین رفتارهای انسانی و حتی حیوانی است. یکی از مثال‌های مشهور این موضوع پدیده «درماندگی آموخته‌شده» است که طبق آن موجودات زنده در شرایط ناامیدکننده، تلاشی برای رسیدن به حداکثر پاداش نمی‌کنند، برخلاف آنچه یادگیری تقویتی پیش‌بینی می‌کند.

وقتی ماشین‌ها به قهرمانان شطرنج و Go تبدیل شدند

با این وجود، بزرگ‌ترین مانع یادگیری تقویتی در عرصه هوش مصنوعی، نیاز به تعاملات زیادی با محیط برای اینکه تنها کمی بهتر از یک عامل تصادفی عمل کند، بود. در نیمه دوم دهه گذشته میلادی، ترکیبی از پیشرفت‌های سخت‌افزاری، ظهور یادگیری عمیق و توسعه الگوریتم‌های کارآمدتر، به رفع این مانع کمک کرد. در نتیجه، دیپ‌مایند توانست با مدل‌های هوشمند خود، قهرمانان شطرنج و بازی چینی Go را شکست دهد. این مدل‌ها با استفاده از میلیون‌ها بازی در قالب «خود-بازی» به این موفقیت شگفت‌انگیز دست یافته بودند.

اکنون همه شواهد نشان می‌داد که یادگیری تقویتی به ستاره‌ای در آسمان هوش مصنوعی تبدیل خواهد شد، اما داستان به نحوی دیگر رقم خورد: مدل‌های زبانی که بر اساس پیش‌بینی متن آموزش دیده بودند، انقلابی را به وجود آوردند که زندگی انسان‌ها را دچار تغییرات بنیادین کرد. امروزه چت‌جی‌پی‌تی و رقبای آن به اجزای جدایی‌ناپذیری از زندگی افراد در سراسر جهان تبدیل شده‌اند و مباحثی در خصوص بهبود قابلیت‌های آن‌ها در قالب «عاملیت هوشمند» مطرح می‌شود.

اما سرنوشت یادگیری تقویتی چه شد؟ جالب اینجاست که این روش نیز در پیشرفت‌های اخیر مدل‌های زبانی نقش بارزی ایفا کرده است. در واقع، مشکل مدل‌های زبانی ابتدایی این بود که چندان برای تعامل با انسان‌ها آماده نبودند. اما با آموزش این مدل‌ها از طریق یادگیری تقویتی و پاداش‌دهی به پاسخ‌های آن‌ها، زمینه مناسب‌تری برای تولید مدل‌های سازگار با نیازهای کاربران فراهم آمده است.

RLHF و نقش انسان در تربیت چت‌جی‌پی‌تی

در سال 2017، شرکت دیپ‌مایند، در همکاری با OpenAI (سازنده چت‌جی‌پی‌تی)، روشی را توسعه داد که به عنوان پایه الگوریتم RLHF (یادگیری تقویتی با فیدبک انسانی) شناخته می‌شود. در این الگوریتم، کاربران انسانی از میان دو پاسخ تولید شده توسط مدل زبانی، گزینه‌ای را که مفیدتر و ایمن‌تر است، می‌کنند. با این ‌ها، یک مدل پاداش‌دهی آموزش داده می‌شود که مبنای آموزش مدل اصلی است. به نوعی می‌توان گفت مدل پاداش‌دهی به عنوان داور یا منتقد برای مدل زبانی عمل می‌کند.

با اینکه RLHF به مقیاس‌پذیری یادگیری تقویتی بر روی مدل اصلی کمک می‌کند، اما پژوهشگران قانع نشدند و ایده‌های دیگری را مطرح کردند که به هیچ کاربر انسانی احتیاج ندارند. نتیجه این تلاش‌ها شکل‌گیری روش‌هایی چون RLVR (یادگیری تقویتی با پاداش‌های قابل تأیید) بوده که بر اساس پاسخ صحیح به مدل زبانی پاداش می‌دهد. پاسخ صحیح ممکن است شامل خروجی یک قطعه کد برنامه‌نویسی یا پاسخ نهایی یک مسئله ریاضی باشد. از این پس هرگاه مدل‌تان در کد نویسی به شما یاری کند، به یاد داشته باشید که این مدل نه تنها با پیش‌بینی متن، بلکه با کوششی برای یافتن پاسخ‌های صحیح مسائل کدنویسی نیز به این توانایی دست یافته است.

حال ممکن است وسوسه شویم تا ادعا کنیم هوش مصنوعی انسان‌نما یا حتی فراتر از آن به زودی ممکن است، زیرا می‌توان با ارائه پاداش‌های مناسب، مدل‌ها را روز به روز قوی‌تر ساخت. در سال 2021، چندین پژوهشگر (از جمله ریچارد ساتن) مقاله‌ای با عنوان «پاداش کافی است» منتشر کردند که به نوعی این خط فکری را ترویج می‌کرد. شاید در نظریه چنین باشد، اما در مراتب عملی با چالش‌های جدی مواجه هستیم.

بسیاری از مسائل انسانی، نظیر مشاوره مدیریتی و یا نوشتن اشعار، پاداش قابل اندازه‌گیری ندارند. در پاسخ به این چالش، عده‌ای در تلاش هستند تا الگوریتم‌های تحت عنوان RLAIF (یادگیری تقویتی با پاداش‌های هوش مصنوعی) را توسعه دهند که در آن از هوش مصنوعی برای پاداش‌دهی به مدل‌های زبانی استفاده می‌شود.

آیا پاداش، پلی به سوی هوش مصنوعی جامع است یا تنها سرابی است؟

حتی اگر تلاش‌ها به نتیجه‌ای برای ساخت یک مدل جامع پاداش‌دهی منجر شود که بتواند به مدل زبانی بگوید متنی که تولید کرده تا چه اندازه «خوب» است، مشکل مقیاس‌پذیری که همان مسأله قدیمی یادگیری تقویتی است، دوباره خود را نمایان می‌کند؛ به خصوص اینکه مدل‌های کنونی به نوعی «استدلال» شده‌اند، به این معنا که چندین بار خروجی تولید می‌کنند تا به یک خروجی نهایی برسند و این خصوصیت به معنای مصرف بیشتر منابع است.

با تمام این اوصاف، آیا یادگیری تقویتی ما را در نهایت به تحقق هوش مصنوعی جامع (AGI) رهنمون خواهد کرد؟ این سؤال از جوانب مختلفی پیچیده است. اول اینکه بسیاری بر این عقیده‌اند که چیزی به نام «هوش مصنوعی جامع» وجود ندارد. اگر هدف به دستیابی به سطح هوش انسانی باشد، در حال حاضر در برخی حوزه‌ها انسان‌ها قادر نیستند در مقابل هوش مصنوعی رقابت کنند. اگر هدف، رسیدن به همگونی و تعادل در میان مهارت‌هاست، مشخص نیست که کدام مهارت‌ها با چه معیاری باید سنجیده شوند. بنابراین تا زمانی که مقصد به‌طور دقیق مشخص نشود، سنجش فاصله به سمت آن فاقد معنا خواهد بود.

چالش دیگری که وجود دارد آن است که روند تحقیق و توسعه به صورت تکاملی و بدون یک متفکر واحد در حال پیشروی است. دیپ‌مایند پس از ظهور مدل‌های زبانی به دلیل تمرکز بر یادگیری تقویتی مورد انتقاد قرار گرفت؛ و ممکن است اگر تاریخ دوباره تکرار می‌شد، هرگز در این حوزه سرمایه‌گذاری نمی‌کرد و ما از پیشرفت‌های بالقوه آن بی‌بهره می‌ماندیم. بنابراین مسئله تعیین مسیر پیش رو کاملاً به تصمیمات پژوهشگران و سرمایه‌گذاران وابسته است و کمتر به قابلیت‌های ذاتی فناوری‌ها مربوط می‌شود!

در نهایت، نباید فراموش کرد که تحقیق همیشه پتانسیل شگفت‌زنی دارد و چه بسا یک فناوری جدید ظهور کند، یا یک ایده قدیمی با ویژگی‌های تازه‌ای احیا شده و یادگیری تقویتی را تکمیل کند (یا حتی تقویت نماید!).

مقالات مرتبط

دکمه بازگشت به بالا