هوش مصنوعی گفتاری متا با قابلیت تشخیص بیش از 4 هزار زبان متنباز شد
متا یک مدل زبانی هوش مصنوعی دارد که تقلیدی از GPT نیست. این شرکت پروژهای بهنام «گفتار چندزبانی عظیم» (MMS) را ساخته است که میتواند بیش از 4000 زبان را شناسایی کند و در بیش از 1100 زبان تبدیل متن به گفتار داشته باشد.
متا امروز اعلام کرد که پروژه MMS را متنباز میکند تا به حفظ تنوع زبانی کمک و محققان را به توسعه این زیرساختها تشویق کند. در بیانیه این شرکت آمده است: «ما امروز بهصورت عمومی مدلها و کدهای خود را به اشتراک میگذاریم تا بقیه افراد جامعه محققان هم بتوانند روی تلاشهای ما کار کنند. امیدواریم که با این تصمیم مشارکت کوچکی در حفظ تنوع زبانی شگفتآور جهان داشته باشیم.»
مدلهای تشخیص گفتار و تبدیل متن به گفتار معمولاً باید روی هزاران ساعت صدا با برچسبگذاریهای مشخص آموزش داده شوند. این برچسبگذاریها برای یادگیری ماشینی بسیار مهماند چون به الگوریتمها اجازه میدهند بهدرستی دادهها را دستهبندی و درک کنند.
بااینحال، برای زبانهایی که بهطور گسترده در دنیا استفاده نمیشوند و خیلی از آنها در معرض خطر ازبینرفتن قرار دارند، متا میگوید چنین دادههایی وجود ندارند. درنتیجه، این شرکت از شیوهای نامتداول برای گردآوری دادههای صوتی استفاده کرده است.
هوش مصنوعی متا روی چه دادههایی آموزش داده شده است؟
متا میگوید برای انجام این کار از صداهای ضبطشده از ترجمه متنهای مذهبی بهره گرفته است: «ما به سراغ متنهای مذهبی نظیر انجیل رفتیم که به بسیاری از زبانها ترجمه شده و ترجمههای آن بهطور گسترده برای تحقیق در زمینه ترجمه از روی متن مورد مطالعه قرار گرفته است. این ترجمهها دارای صداهای ضبطشدهای از افراد است که آنها را به زبانهای مختلف خواندهاند.» درنتیجه، متا با کمک این دادهها که البته برچسبگذاری نشده بودند، توانست زبانهای مدل خود را به بیش از 4000 عدد برساند.
غول دنیای فناوری میگوید اگرچه منبع آموزش مدل هوش مصنوعی آنها متون مذهبی بوده است، اما این اتفاق باعث نشده که این مدل سوگیری مذهبی پیدا کند. متا ادعا میکند که دلیل این عدم سوگیری استفاده از رویکرد «دستهبندی زمانی پیوندگرا» (CTC) است که در مقایسه با مدلهای زبانی بزرگ (LLM) محدودیتهای بسیار بیشتری دارد.
بااینحال، متا یادآور شده که مدلش بینقص نیست. برای مثال این مدل میتواند در تبدیل گفتار به نوشتار دچار اشتباه شود. اما این شرکت امیدوار است که با کمک جامعه متنباز بتواند هرچه بیشتر مدل خود را بهینهسازی کند.