هوش مصنوعی میتواند از روی اسکن مغز چیزی را که میبینید شبیهسازی کند
تصویربرداری تشدید مغناطیسی کارکردی یا fMRI، یکی از پیشرفتهترین ابزار برای فهم چگونگی فکرکردن ماست. وقتی فردی در یک اسکنر fMRI وظایف ذهنی متفاوتی را انجام میدهد، ماشین تصاویری زنده و رنگی از مغز درحال فعالیت میسازد.
مشاهده فعالیت مغزی یک انسان به این روش میتواند به دانشمندان اعصاب بگوید فرد از کدام نواحی مغز خود استفاده میکند، نه این که به چه چیزهایی فکر میکند، یا چه چیزهایی را میبیند یا احساس میکند. پژوهشگران دهههاست درحال تلاش برای شکستن این رمز هستند و حالا با استفاده از هوش مصنوعی برای پردازش اعداد، درحال پیشرفتهایی جدی هستند.
اخیراً دو دانشمند در ژاپن دادههای fMRI را با هوش مصنوعی (AI) تصویرساز پیشرفته ترکیب کردهاند تا فعالیتهای مغزی مشارکتکنندگان مطالعه را به تصاویری تبدیل کنند که شباهتی بسیار به تصاویر نشان دادهشده در حین اسکنها دارد. تصاویر اصلی و بازسازیشده را میتوان در وبسایت پژوهشگران دید.
«تو تاکاگی» (Tu Takagi)، دانشمند اعصاب دانشگاه اوساکا در ژاپن و یکی از نویسندگان مقاله، میگوید: «ما میتوانیم از این نوع تکنیکها برای ساخت رابطهای مغز-ماشین بالقوه استفاده کنیم.» این رابطها میتوانند روزی به افرادی که قادر به برقراری ارتباط نیستند، کمک کنند؛ مانند افرادی که از لحاظ ظاهری واکنشی ندارند، اما همچنان آگاه هستند.
این پژوهش اخیراً برای ارائه در کنفرانس Computer Vision and Pattern Recognition در امسال پذیرفته شده است.
نسخه پیش از انتشار این پژوهش (که هنوز داوری و در ژورنالهای علمی منتشر نشده است) در زمستان گذشته موجی از سروصداهای آنلاین را ایجاد کرد. مردم این تکنولوژی را با «ذهنخوانی» مقایسه کردهاند، اما به گفته متخصصان، این توصیف قابلیتهای این تکنولوژی را بسیار دست بالا میگیرد.
«شایلی جین» (Shailee Jain)، دانشمند اعصاب محاسباتی در دانشگاه تگزاس در آستین که نقشی در پژوهش نداشته است، میگوید: «من فکر نمیکنم ما درحال ذهنخوانی باشیم. فکر نمیکنم این تکنولوژی درحالحاضر اصلاً برای بیماران یا برای استفاده در مقاصد بد کاربردی داشته باشد. اما داریم روزبهروز بهتر میشویم.»
این پژوهش جدید حتی اولین مورد استفاده از هوش مصنوعی روی فعالیت مغزی بهمنظور بازسازی تصاویری که مردم میبینند، نیست. در یک آزمایش در ۲۰۱۹، پژوهشگران در کیوتو ژاپن از نوعی یادگیری ماشینی بهنام شبکه عصبی عمیق برای بازسازی تصاویر از روی اسکنهای fMRI استفاده کردند. نتایج بیشتر مانند نقاشیهای انتزاعی بود تا عکس، اما داوران انسانی همچنان میتوانستند بادقت تصاویر ساخته AI را با تصاویر اصلی مقایسه کنند.
دانشمندان اعصاب از آن زمان این کار را با تصویرسازهای هوش مصنوعی جدیدتر و بهتر ادامه دادهاند. در پژوهش حاضر، دانشمندان از Stable Diffusion استفاده کردهاند؛ یک مدل انتشار متعلق به استازتاپ لندنی Stability AI. تاکاگی میگوید مدلهای انتشار (دستهای که تصویرسازهایی مانند DALL-E2 نیز از آن استفاده میکنند) «ویژگی اصلی انفجار هوش مصنوعی» هستند.
این مدلها با اضافهکردن نویز به تصاویر تمرین (Training) خود آموزش میبینند. مانند برفکهای تلویزیون، نویزها تصاویر را مخدوش میکنند، اما به روشی قابل پیشبینی که مدل شروع به یادگیری آنها میکند. درنهایت، مدل میتواند تنها از «برفک» تصویر بسازد.
مدل Stable Diffusion که در تابستان ۲۰۲۲ منتشر شد، با میلیاردها عکس و توضیحات آنها تمرین کرده است. مدل همچنین یاد گرفته است که الگوهای درون عکسها را تشخیص دهد، به این ترتیب میتواند خصوصیات بصری را طبق دستور ترکیب و هماهنگ کند تا تصاویری کاملاً جدید خلق کند.
«آیریس گروئن» (Iris Groen)، دانشمند اعصاب دانشگاه آمستردام که در پژوهش بالا نقشی نداشته است، میگوید: «شما تنها میتوانید به آن بگویید: خب یک سگ روی تخته اسکیت، تا یک سگ روی تخته اسکیت تولید کند. پژوهشگران فقط مدل را میگیرند و سپس میگویند: باشد، آیا حالا میتوانیم آن را بهگونهای هوشمندانه به اسکنهای مغزی پیوند دهیم؟»
اسکنهای مغزی بهکاررفته در پژوهش جدید از یک پایگاه داده پژوهشی میآیند که شامل نتایج مطالعهای در گذشته است که در آن هشت نفر موافقت کردند در یک دوره یکساله بهطور منظم در یک اسکنر fMRI بنشینند و ۱۰٬۰۰۰ عکس را ببینند.
حاصل کار مخزنی عظیم از دادههای fMRI بود که نشان میدهد چگونه مراکز بینایی مغز انسان (یا حداقل مغزهای این هشت نفر) به دیدن هرکدام از عکسها واکنش نشان میدهند. در مطالعه اخیر، پژوهشگران دادههای چهار نفر از این مشارکتکنندگان را استفاده کردند.
برای بازسازی تصاویر، مدل AI نیاز دارد که با دو نوع متفاوت داده کار کند: مشخصات سطح پایین دیداری عکس و معنای سطح بالای آن. برای مثال، این فقط یک جسم زاویهدار و دراز در یک پسزمینه آبی نیست، یک هواپیما در آسمان است. مغز نیز با این دو نوع اطلاعات کار و آنها را در نواحی متفاوت پردازش میکند.
برای برقراری پیوند بین اسکنهای مغز و هوش مصنوعی، پژوهشگران از مدلهای خطی استفاده کردند تا زوجی میان بخشهای هرکدام که با اطلاعات بینایی سطح پایین مرتبط هستند، ایجاد کنند. آنها این کار را با بخشهایی که اطلاعات مفهومی سطح بالا را پردازش میکنند نیز انجام دادند.
گروئن میگوید: «با انطبق این دو با یکدیگر، آنها توانستند این تصاویر را ایجاد کنند.» به این ترتیب، هوش مصنوعی میتوانست بفهمد کدام الگوهای نادیدنی در فعالیت مغز با کدام ویژگی تصاویر ارتباط داشت.
وقتی مدل توانست این الگوها را تشخیص دهد، پژوهشگران به آن دادههای fMRI را خوراندند که تا به حال برای مدل سابقه نداشت و از آن خواستند همراه با این کار تصویر مرتبط را تولید کند. سرانجام، پژوهشگران توانستند تصویر تولیدشده را با تصویر اصلی مقایسه کنند تا ببینند مدل چه عملکردی دارد.
بسیاری از زوجهای تصویری که نویسندگان در مقاله خود نمایش دادهاند، شباهت خارقالعادهای دارند.
«آمبوج سینگ» (Ambuj Singh)، دانشمند کامپیوتر دانشگاه کالیفرنیا سانتا باربارا که در پژوهش شرکت نداشته است، میگوید: «چیزی که برای من هجانانگیز است، این است که این روش کار میکند.»
با این حال، سینگ میگوید این به این معنی نیست که دانشمندان توانستهاند بفهمند مغز دقیقاً چگونه دنیای بصری را پردازش میکند. مدل Stable Diffusion لزوماً تصاویر را بهروش مغز پردازش نمیکند، حتی با این که قابلیت تولید نتایج مشابه را دارد. نویسندگان مقاله امیدوارند که مقایسه این مدلها و مغز بتواند نوری بر کارکرد درونی هردو سیستم پیچیده بیندازد.
با این که این تکنولوژی بسیار شگفتانگیز بهنظر میرسد، محدودیتهای بسیاری دارد. هر مدل باید با دادههای تنها یک نفر تمرین داده و استفاده شود.
«لین له» (Lynn Le)، دانشمند اعصاب محاسباتی در دانشگاه رادبود هلند، که نقشی در پژوهش انجامشده نداشته است، میگوید: «مغز هر فرد واقعاً متفاوت است.»
اگر بخواهید هوش مصنوعی تصاویر را از اسکن مغزی شما بازسازی کند، باید یک مدل شخصی آموزش دهید و برای این کار، دانشمندان به هزاران داده باکیفیت fMRI از مغز شما نیاز دارند. اگر رضایت ندهید که کاملاً بیحرکت و متمرکز، درون یک لوله پرسروصدا و تنگ MRI بنشینید، هیچ مدل AI موجود داده کافی برای شروع رمزگشایی فعالیت مغزی شما نخواهد داشت.
جین میگوید که حتی با آن دادهها، مدلهای هوش مصنوعی تنها برای وظایفی خوب هستند که بهطور اختصاصی برایشان تمرین دیدهاند. مدلی که برای چگونگی درک تصاویر شما تمرین دیده، در تلاش برای رمزگشایی از مفاهیمی که به آنها فکر میکنید، کاربردی ندارد، گرچه برخی از تیمهای پژوهشی، ازجمله تیم جین، درحال ساخت مدلهای دیگری برای آن منظور هستند.
هنوز مشخص نیست که این تکنولوژی را میتوان برای بازسازی تصاویری که شرکتکنندگان تنها تصور کردهاند و با چشمان خود ندیدهاند استفاده کرد یا نه. این توانایی برای بسیاری از کاربردهای این تکنولوژی لازم خواهد بود؛ مثلاً استفاده از رابطهای مغز-کامپیوتر برای کمک به افرادی که نمیتوانند صحبت کنند یا برای رساندن مفهوم خود ژستهایی را بهکار ببرند.
جین میگوید: «چیزهای زیادی مانده است که باید از منظر علم اعصاب برای ساختن تکنولوژی رمزگشایی به آنها دست یافت.» اما مزایای بالقوه با چالشهایی اخلاقی میآیند و رسیدگی به آنها با پیشرفت این تکنیکها مهمتر میشود. او میگوید: «محدودیتهای فعلی تکنولوژی بهانهای کافی برای این نیستند که آسیبهای رمزگشایی ساده گرفته شوند. من فکر میکنم زمان فکرکردن به حریم شخصی و کاربردهای منفی این تکنولوژی الان است، گرچه حتی در مرحلهای نباشیم که چنین چیزی بتواند رخ دهد.»