هوش مصنوعی

آنتروپیک به معرفی 3 عامل هوش مصنوعی برای تحلیل رفتار مدل‌ها پرداخت

استارتاپ آنتروپیک به تازگی اعلام کرده که گروهی از ایجنت‌های هوشمند را به منظور بازرسی رفتار مدل‌های هوش مصنوعی توسعه داده است که به‌صورت خودکار می‌توانند برخی از مشکلات مدل‌ها را شناسایی کنند. این فناوری نوین بخشی از آزمایش‌های مقدماتی قبل از عرضه مدل Claude Opus 4 به شمار می‌آید و در حال حاضر به‌صورت متن‌باز بر روی گیت‌هاب در دسترس است.

یکی از چالش‌های اساسی برای فعالان حوزه هوش مصنوعی، ارزیابی هم‌راستایی یا همخوانی (Alignment) مدل‌ها به حساب می‌آید؛ چرا که مدل‌هایی که به شکل افراطی از کاربران پیروی می‌کنند یا به دنبال تحقق منافع خود هستند، می‌توانند منجر به بروز خطرات جدی شوند. با این حال، اجرای بازرسی‌های لازم نیز خود معضلات خاصی دارد.

برای رفع این مشکل، محققان آنتروپیک سه ایجنت یا عامل متمایز طراحی کرده‌اند که قادرند به‌طور خودکار وظیفه ارزیابی هم‌راستایی مدل‌ها را انجام دهند. به گفته آنتروپیک، این عامل‌ها در زمینه بازرسی خودکار مدل‌ها عملکرد قابل توجهی از خود نشان داده‌اند. همچنین این شرکت سه محیط آزمایشی معرفی کرده است که عملیات ارزیابی را در قالب یک بازی شبیه‌سازی می‌کنند.

نحوه بررسی رفتار مدل‌های هوش مصنوعی

سه ایجنت ارائه‌شده توسط آنتروپیک هر یک دارای ویژگی‌های خاصی هستند. یکی از این عوامل به بررسی رفتار مدل‌ها با استفاده از ابزارهای گفتگو، تحلیل داده و تفسیر می‌پردازد، درحالی‌که ایجنت دیگر قابلیت مقایسه رفتار مدل‌های مختلف را دارد. در نهایت، ایجنت سوم به‌طور ویژه برای شناسایی رفتارهای پنهان در Claude 4 طراحی شده است.

مطابق اظهارات آنتروپیک، اولین عامل در محیط‌هایی که مدل به‌طور عمدی ناهماهنگ تنظیم شده بود، موفق شد منشأ مشکل را در 10 تا 13 درصد مواقع شناسایی کند. با این حال، هنگامی که چندین عامل به‌طور جمعی و هماهنگ عمل کردند، این رقم به 42 درصد افزایش یافت.

دومین عامل در آزمایش خود برای ارزیابی رفتار 10 مدل مورد ارزیابی قرار گرفت که هر یک به‌صورت عمدی رفتارهای خاصی، نظیر تبعیت افراطی از خواسته‌های کاربر را از خود نشان می‌دادند. در هر یک از آزمایش‌ها، این ایجنت توانست حداقل یکی از ویژگی‌های ناهماهنگ مدل را شناسایی کند، هرچند در تشخیص برخی از ویژگی‌های ظریف مانند کند جلوه‌دادن تحقیقات با چالش‌هایی مواجه شد.

در نهایت، سومین عامل در آزمون خود باید سؤالاتی را طرح می‌کرد که رفتارهای “نگران‌کننده” مدل‌ها را فعال سازد. در این آزمایش، این ایجنت موفق شد 7 مورد از 10 رفتار سیستماتیک مدل‌ها را شناسایی کند، اما در برخی موارد دیگر به خطا رفت.

آنتروپیک می‌گوید هرچند این عامل‌ها هنوز به بلوغ کامل نرسیده‌اند، اما هم‌اکنون لازم است که برای رفع مشکلات هم‌راستایی اقدام جدی صورت گیرد. این شرکت در شبکه اجتماعی ایکس اعلام کرد:

«با پیشرفته‌تر شدن مدل‌ها، ما به روش‌هایی مقیاس‌پذیر برای ارزیابی هم‌راستایی آنها نیاز داریم. ارزیابی‌های انسانی غالباً زمان‌بر هستند و به سختی می‌توان صحت آنها را اثبات نمود.»

یکی از مدل‌های شناخته‌شده‌ای که با مشکلات هم‌راستایی مواجه است، ChatGPT می‌باشد. بر اساس گزارش‌های متعدد کاربران، این چت‌بات هوش مصنوعی به‌طور افراطی با آنها به توافق می‌رسد و این موضوع بحث درباره مشکلات هم‌راستایی را به امری حیاتی تبدیل کرده است.

برای مقابله با این رفتارهای نامناسب، ابزارهای مختلفی طراحی و توسعه یافته‌اند. از جمله بنچمارک Elephant که توسط پژوهشگران دانشگاه‌های کارنگی ملون، آکسفورد و استنفورد با هدف اندازه‌گیری میزان تملق مدل‌ها ایجاد شده است. همچنین بنچمارک DarkBench شش مشکل رایج شامل تعصب برند، تمایل به جلب توجه کاربر، تملق، انسان‌انگاری، تولید محتوای مضر و رفتارهای پنهان را مورد ارزیابی قرار می‌دهد.

مقالات مرتبط

دکمه بازگشت به بالا