آنتروپیک به معرفی 3 عامل هوش مصنوعی برای تحلیل رفتار مدلها پرداخت
استارتاپ آنتروپیک به تازگی اعلام کرده که گروهی از ایجنتهای هوشمند را به منظور بازرسی رفتار مدلهای هوش مصنوعی توسعه داده است که بهصورت خودکار میتوانند برخی از مشکلات مدلها را شناسایی کنند. این فناوری نوین بخشی از آزمایشهای مقدماتی قبل از عرضه مدل Claude Opus 4 به شمار میآید و در حال حاضر بهصورت متنباز بر روی گیتهاب در دسترس است.
یکی از چالشهای اساسی برای فعالان حوزه هوش مصنوعی، ارزیابی همراستایی یا همخوانی (Alignment) مدلها به حساب میآید؛ چرا که مدلهایی که به شکل افراطی از کاربران پیروی میکنند یا به دنبال تحقق منافع خود هستند، میتوانند منجر به بروز خطرات جدی شوند. با این حال، اجرای بازرسیهای لازم نیز خود معضلات خاصی دارد.
برای رفع این مشکل، محققان آنتروپیک سه ایجنت یا عامل متمایز طراحی کردهاند که قادرند بهطور خودکار وظیفه ارزیابی همراستایی مدلها را انجام دهند. به گفته آنتروپیک، این عاملها در زمینه بازرسی خودکار مدلها عملکرد قابل توجهی از خود نشان دادهاند. همچنین این شرکت سه محیط آزمایشی معرفی کرده است که عملیات ارزیابی را در قالب یک بازی شبیهسازی میکنند.
نحوه بررسی رفتار مدلهای هوش مصنوعی
سه ایجنت ارائهشده توسط آنتروپیک هر یک دارای ویژگیهای خاصی هستند. یکی از این عوامل به بررسی رفتار مدلها با استفاده از ابزارهای گفتگو، تحلیل داده و تفسیر میپردازد، درحالیکه ایجنت دیگر قابلیت مقایسه رفتار مدلهای مختلف را دارد. در نهایت، ایجنت سوم بهطور ویژه برای شناسایی رفتارهای پنهان در Claude 4 طراحی شده است.
مطابق اظهارات آنتروپیک، اولین عامل در محیطهایی که مدل بهطور عمدی ناهماهنگ تنظیم شده بود، موفق شد منشأ مشکل را در 10 تا 13 درصد مواقع شناسایی کند. با این حال، هنگامی که چندین عامل بهطور جمعی و هماهنگ عمل کردند، این رقم به 42 درصد افزایش یافت.
دومین عامل در آزمایش خود برای ارزیابی رفتار 10 مدل مورد ارزیابی قرار گرفت که هر یک بهصورت عمدی رفتارهای خاصی، نظیر تبعیت افراطی از خواستههای کاربر را از خود نشان میدادند. در هر یک از آزمایشها، این ایجنت توانست حداقل یکی از ویژگیهای ناهماهنگ مدل را شناسایی کند، هرچند در تشخیص برخی از ویژگیهای ظریف مانند کند جلوهدادن تحقیقات با چالشهایی مواجه شد.
در نهایت، سومین عامل در آزمون خود باید سؤالاتی را طرح میکرد که رفتارهای “نگرانکننده” مدلها را فعال سازد. در این آزمایش، این ایجنت موفق شد 7 مورد از 10 رفتار سیستماتیک مدلها را شناسایی کند، اما در برخی موارد دیگر به خطا رفت.
آنتروپیک میگوید هرچند این عاملها هنوز به بلوغ کامل نرسیدهاند، اما هماکنون لازم است که برای رفع مشکلات همراستایی اقدام جدی صورت گیرد. این شرکت در شبکه اجتماعی ایکس اعلام کرد:
«با پیشرفتهتر شدن مدلها، ما به روشهایی مقیاسپذیر برای ارزیابی همراستایی آنها نیاز داریم. ارزیابیهای انسانی غالباً زمانبر هستند و به سختی میتوان صحت آنها را اثبات نمود.»
یکی از مدلهای شناختهشدهای که با مشکلات همراستایی مواجه است، ChatGPT میباشد. بر اساس گزارشهای متعدد کاربران، این چتبات هوش مصنوعی بهطور افراطی با آنها به توافق میرسد و این موضوع بحث درباره مشکلات همراستایی را به امری حیاتی تبدیل کرده است.
برای مقابله با این رفتارهای نامناسب، ابزارهای مختلفی طراحی و توسعه یافتهاند. از جمله بنچمارک Elephant که توسط پژوهشگران دانشگاههای کارنگی ملون، آکسفورد و استنفورد با هدف اندازهگیری میزان تملق مدلها ایجاد شده است. همچنین بنچمارک DarkBench شش مشکل رایج شامل تعصب برند، تمایل به جلب توجه کاربر، تملق، انسانانگاری، تولید محتوای مضر و رفتارهای پنهان را مورد ارزیابی قرار میدهد.