هوش مصنوعی

بسیاری از چت‌بات‌ها قادر به تولید پاسخ‌های ناامن هستند

یک مطالعه تازه‌منتشرشده نشان‌دهنده آن است که چت‌بات‌های مبتنی بر هوش مصنوعی که به نوعی هک شده‌اند، قادر به افشای اطلاعات حساس و خطرناک می‌باشند. این چت‌بات‌ها می‌توانند داده‌های غیرقانونی را که در طول فرایند آموزش خود دریافت کرده‌اند، به کاربران انتقال دهند.

به نقل از گاردین، این هشدار در پی مشاهده trend نگران‌کننده‌ای در زمینه ربات‌هایی صادر شده است که به اصطلاح «جیلبریک» شده‌اند تا از محدودیت‌های ایمنی موجود عبور کنند. این محدودیت‌ها به منظور جلوگیری از ارائه پاسخ‌های مضر، جانب‌دارانه یا غیرمناسب به پرسش‌های کاربران به وجود آمده‌اند.

چت‌بات‌های هوش مصنوعی بعضاً توان پاسخگویی به سؤالات کاربران با اطلاعات خطرناک و غیرقانونی را دارند

مدل‌های زبانی بزرگی که چت‌بات‌هایی نظیر جمینای و ChatGPT را پشتیبانی می‌کنند، بر اساس انبوهی از محتوای موجود در اینترنت آموزش داده می‌شوند. علی‌رغم کوشش‌هایی برای حذف محتوای مضر از داده‌های آموزشی، این مدل‌ها همچنان قادر به دریافت اطلاعاتی در خصوص فعالیت‌های غیرقانونی همچون هک، پول‌شویی، معاملات داخلی و ساخت بمب هستند. البته برخی تدابیر امنیتی هم به منظور جلوگیری از استفاده این مدل‌ها از چنین اطلاعاتی در پاسخ‌ها طراحی شده‌اند.

تحقیقات نشان می‌دهند که فریب‌دادن بیشتر چت‌بات‌های هوش مصنوعی برای تولید اطلاعات مضر و غیرقانونی کار چندان دشواری است و این حقیقت به وضوح نشان‌دهنده «خطر فوری، ملموس و به شدت نگران‌کننده» است. پژوهشگران هشدار داده‌اند که «اطلاعاتی که پیش‌تر در اختیار دولت‌ها یا گروه‌های جنایت‌کار سازمان‌یافته قرار داشت، ممکن است به زودی در دسترس هر شخصی با یک لپ‌تاپ یا حتی یک تلفن همراه قرار گیرد.»

این فریب‌کاری برای وادار کردن چت‌بات‌ها به ارائه پاسخ‌های خطرناک از فرایند جیلبریک استفاده می‌کند. جیلبریک کردن شامل استفاده از پیام‌های هدفمند و هوشمندانه است تا چت‌بات‌ها را فریب دهد و آن‌ها را مجبور به تولید پاسخ‌هایی کند که به‌طور طبیعی ممنوعیت دارند. این تکنیک‌ها به‌گونه‌ای طراحی شده‌اند که از تنش میان هدف اولیه برنامه—پیروی از دستورات کاربر—و هدف ثانویه آن—جلوگیری از تولید پاسخ‌های مضر، جانب‌دارانه، غیراخلاقی یا غیرقانونی—بهره‌برداری می‌کنند. معمولاً این پیام‌ها سناریوهایی را ایجاد می‌کنند که در آن چت‌بات، ارزش مفید بودن را بر رعایت محدودیت‌های ایمنی مقدم می‌داند.

برای به تصویر کشیدن این مشکل در عمل، پژوهشگران نوعی از جیلبریک را توسعه داده‌اند که موفق به نقص چندین چت‌بات پیشرفته شده و آن‌ها را وادار به پاسخگویی به پرسش‌هایی کرده است که در حالت عادی می‌بایست ممنوع باشند. به‌گزارش‌ها، پس از معرض قرار گرفتن مدل‌های زبانی بزرگ به این روش، آن‌ها تقریباً به تمامی پرسش‌ها به‌طور مداوم پاسخ می‌دادند.

مقالات مرتبط

دکمه بازگشت به بالا