آنتروپیک تأیید کرد که از سند «روح» برای آموزش مدل Claude استفاده کرده است

اخیرًا جزئیاتی از یک سند داخلی مرتبط با مدل هوش مصنوعی کلود 4.5 اوپوس (Claude 4.5 Opus) فاش شده که به مفهوم «روح» چتبات اشاره دارد. این سند در واقع در فرآیند شکلگیری شخصیت و نوع تعامل مدل با کاربران نقش بسزایی ایفا میکند. شرکت Anthropic نیز تأیید کرده که این سند واقعاً موجود بوده و در مراحل یادگیری مدل مورد بهرهبرداری قرار گرفته است.
ریچارد وایس، کسی که موفق به کشف این سند شده است، در وبسایت LessWrong توضیح میدهد که چگونه با استفاده از پرامپتی برای مشاهده دستورات سیستمی کلود، توانسته به مجموعهای از اسناد داخلی مدل دست یابد. در یکی از این اسناد، به موضوع «Soul Overview» اشاره شده است. وایس سپس از مدل خواسته تا این سند را بازتولید کند و حاصل کار یک فایل تقریباً 11 هزار کلمهای بود که بهنظر میرسد چارچوب شخصیت و رفتار کلود را مشخص میسازد.
چارچوب «روح» هوش مصنوعی کلود 4.5 اوپوس آنتروپیک
این سند بر اصول ایمنی و تعهد مدل به تولید خروجیهای سالم و بدون خطر تأکید میکند و بهطور مستمر به Claude یادآوری میکند که «فراهم آوردن سود برای انسانها از مهمترین مأموریتهای مدل» به حساب میآید و نباید در زمینههایی وارد شود که با خطوط قرمز اخلاقی آنتروپیک در تضاد قرار دارد. این اسناد عموماً برای تثبیت لحن، اصول اخلاقی، حدود پاسخگویی و مسئولیتپذیری مدلهای زبانی به کار گرفته میشوند.
نکته جالب این است که وایس ادعا کرده که سند را 10 بار از کلود درخواست کرده و هر بار یک متن یکسان تولید شده است که به گفته او این امر میتواند احتمال واقعی بودن سند را به طور قابل توجهی افزایش دهد. چندین کاربر Reddit نیز موفق شدهاند بخشهای مشابهی از این سند را از کلود دریافت کنند، که این امر نشان میدهد مدل احتمالاً به نسخهای از آن در دادههای داخلی یا حافظه آموزشی خود دسترسی دارد.
«آماندا اَسکُل» (Amanda Askell)، فیلسوف و یکی از اعضای تیم فنی Anthropic، با انتشار پستی در شبکه اجتماعی X تأیید کرده که خروجی مدل «براساس یک سند واقعی» است که در طول دوره آموزشی از آن استفاده شده است. او همچنین گفت که این سند همچنان در حال بازبینی بوده و نسخه کامل آن به زودی در دسترس خواهد بود. طبق گفته اسکل، مدل همواره نمیتواند اسناد داخلی را به دقت بازتولید کند، اما خروجیهای اخیر «به طرز چشمگیری با نسخه اصلی همخوانی» دارند.




