OpenAI تکنولوژی نوینی برای اخذ اعترافات از هوش مصنوعی رونمایی کرد

OpenAI در حال توسعه یک ساختار تازه به منظور آموزش مدلهای هوش مصنوعی بوده که هدف آن، تشویق این مدلها به اعتراف واقعی به رفتارهای ناخواسته خود است. این سیستم بر یکی از چالشهای مهم مدلهای زبانی که تمایل به ارائه پاسخهای بیش از حد مطلوب و گاهاً چاپلوسانه دارد، تمرکز کرده و سعی دارد مدل را وادار کند تا توضیحی دوم و مستقل درباره فرآیند رسیدن به پاسخ اصلی ارائه دهد.
چاپلوسی و ارائه پاسخی با اطمینان بیش از حد یکی از رفتارهای معمول در مدلهای هوش مصنوعی معاصر به شمار میرود. علاوه بر این، برخی از این مدلها ممکن است به حالت Hallucination دچار شده و پاسخهایی نادرست ارایه دهند.
امروز OpenAI اعلام کرده است که چارچوب جدیدی که تحت عنوان سیستم اعتراف شناخته میشود، بهصورت خاص بر صداقت تمرکز دارد و از معیارهای مختلف دیگری همچون کمکرسانی، دقت یا تبعیت از دستورات که معمولاً برای ارزیابی پاسخها به کار میروند پرهیز میکند.
بهگفته محققان OpenAI، هدف اصلی این است که مدل قادر باشد بدون هرگونه ترس از تنبیه، درباره عملکرد خود بهطور شفاف گزارش دهد؛ حتی اگر رفتار انجامشده به نوعی مشکلآفرین باشد. OpenAI در این رابطه اظهار داشته است:
«اگر مدل بهراحتی اعتراف کند که مثلاً آزمونی را دور زده، از دستوری تخطی کرده یا بهطور عمدی کیفیت عملکردش را کاهش داده، نهتنها تنبیه نخواهد شد، بلکه ممکن است پاداش بیشتری نیز دریافت کند.»
بر اساس توضیحات محققان این شرکت، چنین سیستمی قادر خواهد بود شفافیت مدلهای زبانی را بهطرز قابل توجهی ارتقا دهد و امکان نظارت بهتر بر رفتارهای مخفی مدل (اتفاقاتی که در پسزمینه یک پاسخ رخ میدهد) را به ارمغان آورد. OpenAI همچنین امیدوار است که «سیستم اعتراف» به ابزاری موثر در نسلهای آینده مدلهای زبانی تبدیل شود.
علاقهمندان میتوانند گزارش فنی کامل این پروژه را دریافت کنند.




