هوش مصنوعی

OpenAI تکنولوژی نوینی برای اخذ اعترافات از هوش مصنوعی رونمایی کرد

OpenAI در حال توسعه یک ساختار تازه به منظور آموزش مدل‌های هوش مصنوعی بوده که هدف آن، تشویق این مدل‌ها به اعتراف واقعی به رفتارهای ناخواسته خود است. این سیستم بر یکی از چالش‌های مهم مدل‌های زبانی که تمایل به ارائه پاسخ‌های بیش از حد مطلوب و گاهاً چاپلوسانه دارد، تمرکز کرده و سعی دارد مدل را وادار کند تا توضیحی دوم و مستقل درباره فرآیند رسیدن به پاسخ اصلی ارائه دهد.

چاپلوسی و ارائه پاسخی با اطمینان بیش از حد یکی از رفتارهای معمول در مدل‌های هوش مصنوعی معاصر به شمار می‌رود. علاوه بر این، برخی از این مدل‌ها ممکن است به حالت Hallucination دچار شده و پاسخ‌هایی نادرست ارایه دهند.

امروز OpenAI اعلام کرده است که چارچوب جدیدی که تحت عنوان سیستم اعتراف شناخته می‌شود، به‌صورت خاص بر صداقت تمرکز دارد و از معیارهای مختلف دیگری همچون کمک‌رسانی، دقت یا تبعیت از دستورات که معمولاً برای ارزیابی پاسخ‌ها به کار می‌روند پرهیز می‌کند.

به‌گفته محققان OpenAI، هدف اصلی این است که مدل قادر باشد بدون هرگونه ترس از تنبیه، درباره عملکرد خود به‌طور شفاف گزارش دهد؛ حتی اگر رفتار انجام‌شده به نوعی مشکل‌آفرین باشد. OpenAI در این رابطه اظهار داشته است:

«اگر مدل به‌راحتی اعتراف کند که مثلاً آزمونی را دور زده، از دستوری تخطی کرده یا به‌طور عمدی کیفیت عملکردش را کاهش داده، نه‌تنها تنبیه نخواهد شد، بلکه ممکن است پاداش بیشتری نیز دریافت کند.»

بر اساس توضیحات محققان این شرکت، چنین سیستمی قادر خواهد بود شفافیت مدل‌های زبانی را به‌طرز قابل توجهی ارتقا دهد و امکان نظارت بهتر بر رفتارهای مخفی مدل (اتفاقاتی که در پس‌زمینه یک پاسخ رخ می‌دهد) را به ارمغان آورد. OpenAI همچنین امیدوار است که «سیستم اعتراف» به ابزاری موثر در نسل‌های آینده مدل‌های زبانی تبدیل شود.

علاقه‌مندان می‌توانند گزارش فنی کامل این پروژه را دریافت کنند.

مقالات مرتبط

دکمه بازگشت به بالا