بسیاری از چتباتها قادر به تولید پاسخهای ناامن هستند
یک مطالعه تازهمنتشرشده نشاندهنده آن است که چتباتهای مبتنی بر هوش مصنوعی که به نوعی هک شدهاند، قادر به افشای اطلاعات حساس و خطرناک میباشند. این چتباتها میتوانند دادههای غیرقانونی را که در طول فرایند آموزش خود دریافت کردهاند، به کاربران انتقال دهند.
به نقل از گاردین، این هشدار در پی مشاهده trend نگرانکنندهای در زمینه رباتهایی صادر شده است که به اصطلاح «جیلبریک» شدهاند تا از محدودیتهای ایمنی موجود عبور کنند. این محدودیتها به منظور جلوگیری از ارائه پاسخهای مضر، جانبدارانه یا غیرمناسب به پرسشهای کاربران به وجود آمدهاند.
چتباتهای هوش مصنوعی بعضاً توان پاسخگویی به سؤالات کاربران با اطلاعات خطرناک و غیرقانونی را دارند
مدلهای زبانی بزرگی که چتباتهایی نظیر جمینای و ChatGPT را پشتیبانی میکنند، بر اساس انبوهی از محتوای موجود در اینترنت آموزش داده میشوند. علیرغم کوششهایی برای حذف محتوای مضر از دادههای آموزشی، این مدلها همچنان قادر به دریافت اطلاعاتی در خصوص فعالیتهای غیرقانونی همچون هک، پولشویی، معاملات داخلی و ساخت بمب هستند. البته برخی تدابیر امنیتی هم به منظور جلوگیری از استفاده این مدلها از چنین اطلاعاتی در پاسخها طراحی شدهاند.
تحقیقات نشان میدهند که فریبدادن بیشتر چتباتهای هوش مصنوعی برای تولید اطلاعات مضر و غیرقانونی کار چندان دشواری است و این حقیقت به وضوح نشاندهنده «خطر فوری، ملموس و به شدت نگرانکننده» است. پژوهشگران هشدار دادهاند که «اطلاعاتی که پیشتر در اختیار دولتها یا گروههای جنایتکار سازمانیافته قرار داشت، ممکن است به زودی در دسترس هر شخصی با یک لپتاپ یا حتی یک تلفن همراه قرار گیرد.»
این فریبکاری برای وادار کردن چتباتها به ارائه پاسخهای خطرناک از فرایند جیلبریک استفاده میکند. جیلبریک کردن شامل استفاده از پیامهای هدفمند و هوشمندانه است تا چتباتها را فریب دهد و آنها را مجبور به تولید پاسخهایی کند که بهطور طبیعی ممنوعیت دارند. این تکنیکها بهگونهای طراحی شدهاند که از تنش میان هدف اولیه برنامه—پیروی از دستورات کاربر—و هدف ثانویه آن—جلوگیری از تولید پاسخهای مضر، جانبدارانه، غیراخلاقی یا غیرقانونی—بهرهبرداری میکنند. معمولاً این پیامها سناریوهایی را ایجاد میکنند که در آن چتبات، ارزش مفید بودن را بر رعایت محدودیتهای ایمنی مقدم میداند.
برای به تصویر کشیدن این مشکل در عمل، پژوهشگران نوعی از جیلبریک را توسعه دادهاند که موفق به نقص چندین چتبات پیشرفته شده و آنها را وادار به پاسخگویی به پرسشهایی کرده است که در حالت عادی میبایست ممنوع باشند. بهگزارشها، پس از معرض قرار گرفتن مدلهای زبانی بزرگ به این روش، آنها تقریباً به تمامی پرسشها بهطور مداوم پاسخ میدادند.