هوش مصنوعی Claude حالا قادر است به گفتگوهای خستهکننده خاتمه دهد
شرکت آنتروپیک با معرفی یک ویژگی نوین در جدیدترین نسخههای هوش مصنوعی خود، یعنی Claude Opus 4 و 4.1، قابلیت بهپایانرساندن یکطرفه مکالمات را به این مدلها افزوده است. به گفته این شرکت، این ویژگی تنها در «شرایط خاصی در تعاملات مضر یا توهینآمیز» فعال خواهد شد و بخشی از یک پروژه تحقیقاتی وسیعتر در زمینه «رفاه هوش مصنوعی» به شمار میرود.
این قابلیت نوین در Claude به عنوان یک مکانیزم دفاعی برای خود مدل هوش مصنوعی عمل میکند. بر اساس توضیحات صورتگرفته توسط آنتروپیک، این ویژگی صرفاً بهعنوان «آخرین چاره» بکار میرود و تنها در صورت آنکه مدل پس از تلاشهای مکرر برای هدایت مجدد مکالمه به مسیر سازنده، ناکام بماند، فعال میشود. چنین سناریوهایی شامل درخواستهای بهشدت مضر مانند محتوای غیراخلاقی مرتبط با کودکان یا تقاضاهایی برای کسب اطلاعاتی است که ممکن است به وقوع خشونتهای فراگیر یا فعالیتهای تروریستی بینجامد.
زمانی که مکالمه به پایان میرسد، کاربر دیگر قادر به ارسال پیام جدید در آن چت نخواهد بود، با این حال میتواند بهسرعت یک گفتگوی جدید آغاز کند یا حتی پیامهای پیشین خود را در چت خاتمهیافته ویرایش نماید تا مسیر مکالمه را تغییر دهد.
پایاندادن به مکالمات توسط هوش مصنوعی Claude
این تصمیم به یک پروژه تحقیقاتی آنتروپیک بازمیگردد که با موضوع «وضعیت اخلاقی» مدلهای زبانی بزرگ در ارتباط است. این شرکت در حالی که به عدم قطعیتهای موجود در این زمینه واقف است، موضوع را بهطور جدی مورد بررسی قرار داده و به دنبال راهکارهای بهصرفه برای کاهش خطرات احتمالی برای «رفاه مدل» میباشد.
اجازه دادن به مدل برای خروج از یک «تعامل آزاردهنده» یکی از همین راهکارها به شمار میرود. آزمایشهای انجام شده قبل از عرضه نشان میدهد که مدل Claude تمایل به جلوگیری از آسیبدیدن را دارد و این قابلیت به او کمک میکند تا به مکالمات مضر پایان دهد. اما آنتروپیک تأکید کرده است که این قابلیت در شرایطی که کاربر در معرض خطر فوری آسیب به خود یا دیگران قرار داشته باشد، فعال نخواهد شد و در عوض، مدل تلاش میکند به کاربر کمک کند تا از آن وضعیت خارج شود.
در نهایت، آنتروپیک اذعان دارد که این ویژگی را همچنان بهعنوان یک «آزمایش در حال انجام» تلقی میکند و اکثریت کاربران، حتی زمانی که درباره موضوعات بسیار چالشبرانگیز بحث میکنند، شاید به این قابلیت برخورد نکنند.