هوش مصنوعی

آنتروپیک تأیید کرد که از سند «روح» برای آموزش مدل Claude استفاده کرده است

اخیرًا جزئیاتی از یک سند داخلی مرتبط با مدل هوش مصنوعی کلود 4.5 اوپوس (Claude 4.5 Opus) فاش شده که به مفهوم «روح» چت‌بات اشاره دارد. این سند در واقع در فرآیند شکل‌گیری شخصیت و نوع تعامل مدل با کاربران نقش بسزایی ایفا می‌کند. شرکت Anthropic نیز تأیید کرده که این سند واقعاً موجود بوده و در مراحل یادگیری مدل مورد بهره‌برداری قرار گرفته است.

ریچارد وایس، کسی که موفق به کشف این سند شده است، در وب‌سایت LessWrong توضیح می‌دهد که چگونه با استفاده از پرامپتی برای مشاهده دستورات سیستمی کلود، توانسته به مجموعه‌ای از اسناد داخلی مدل دست یابد. در یکی از این اسناد، به موضوع «Soul Overview» اشاره شده است. وایس سپس از مدل خواسته تا این سند را بازتولید کند و حاصل کار یک فایل تقریباً 11 هزار کلمه‌ای بود که به‌نظر می‌رسد چارچوب شخصیت و رفتار کلود را مشخص می‌سازد.

چارچوب «روح» هوش مصنوعی کلود 4.5 اوپوس آنتروپیک

این سند بر اصول ایمنی و تعهد مدل به تولید خروجی‌های سالم و بدون خطر تأکید می‌کند و به‌طور مستمر به Claude یادآوری می‌کند که «فراهم آوردن سود برای انسان‌ها از مهم‌ترین مأموریت‌های مدل» به حساب می‌آید و نباید در زمینه‌هایی وارد شود که با خطوط قرمز اخلاقی آنتروپیک در تضاد قرار دارد. این اسناد عموماً برای تثبیت لحن، اصول اخلاقی، حدود پاسخگویی و مسئولیت‌پذیری مدل‌های زبانی به کار گرفته می‌شوند.

نکته جالب این است که وایس ادعا کرده که سند را 10 بار از کلود درخواست کرده و هر بار یک متن یکسان تولید شده است که به گفته او این امر می‌تواند احتمال واقعی بودن سند را به طور قابل توجهی افزایش دهد. چندین کاربر Reddit نیز موفق شده‌اند بخش‌های مشابهی از این سند را از کلود دریافت کنند، که این امر نشان می‌دهد مدل احتمالاً به نسخه‌ای از آن در داده‌های داخلی یا حافظه آموزشی خود دسترسی دارد.

«آماندا اَسکُل» (Amanda Askell)، فیلسوف و یکی از اعضای تیم فنی Anthropic، با انتشار پستی در شبکه اجتماعی X تأیید کرده که خروجی مدل «براساس یک سند واقعی» است که در طول دوره آموزشی از آن استفاده شده است. او همچنین گفت که این سند همچنان در حال بازبینی بوده و نسخه کامل آن به زودی در دسترس خواهد بود. طبق گفته اسکل، مدل همواره نمی‌تواند اسناد داخلی را به دقت بازتولید کند، اما خروجی‌های اخیر «به طرز چشمگیری با نسخه اصلی همخوانی» دارند.

مقالات مرتبط

دکمه بازگشت به بالا