هوش مصنوعی Eleven v3 رونمایی گردید؛ صداهای طبیعیتر با احساسات واقعی +ویدیو
شرکت Elevenlabs به تازگی جدیدترین مدل خود برای تبدیل متن به گفتار را با نام Eleven v3 (Alpha) به بازار معرفی کرده است. این مدل بهطور خاص بر روی تولید صداهای مصنوعی با ابراز احساسات طبیعی و واقعی تمرکز دارد و از زبان فارسی نیز پشتیبانی میکند.
این مدل قابلیت بازسازی احساسات گوناگون مانند نجوا، خنده، آهکشیدن و واکنشهای هیجانی را به طور طبیعیتر نسبت به نسخههای قبل دارد. هدف اصلی Elevenlabs در این نسخه، رفع مشکل انتقال احساسات در صداهای مصنوعی بوده است؛ چرا که تا پیش از این، کیفیت صدا نکتهای کلیدی به شمار میرفت، اما اکنون با بازطراحی جامع، این مدل قادر به تولید صداهایی با حس واقعیتر و واکنشهای طبیعیتر شده است.
قابلیتهای مدل هوش مصنوعی Eleven v3
یکی از ویژگیهای برجسته Eleven v3 برخورداری از پشتیبانی بیش از 70 زبان، از جمله فارسی و همچنین قابلیت اجرای روان و طبیعی گفتوگوهای چندنفره است. کاربران میتوانند از طریق API جدید، متنهای ساختاریافتهای را که شامل نوبت گویندگان میشود به مدل ارسال کرده و مدل بهطور خودکار مدیریت تغییر نوبت گوینده، تحولات احساسی و حتی قطع کلامها را انجام میدهد. این ویژگی برای تولید دیالوگهای چندصدایی بسیار کارآمد و موثر است و امکان ایجاد گفتگوهای پیچیده و طبیعی را فراهم میسازد.
توانایی کنترل شیوه بیان صداها بهوسیله برچسبهای صوتی درون متن نیز از دیگر امکانات مهم Eleven v3 به شمار میرود. این برچسبها که به شکل کروشههای کوچک و با حروف کوچک نوشته میشوند، مانند [sighs] (آه کشیدن)، [excited] (هیجانزده) یا [whispers] (نجواکردن)، این امکان را به کاربران میدهند تا احساسات متفاوت و لحن گفتار را بهراحتی تنظیم کنند. حتی میتوان چندین برچسب را بهطور همزمان استفاده کرد تا بیان دقیقتر و ظریفتری بهدست آید؛ به عنوان مثال، «ما موفق شدیم! [شادی][فریاد][خنده]».
طبق گفتههای شرکت Elevenlabs، این مدل بیشتر برای کاربردهای حرفهای نظیر تولید فیلم، کتاب صوتی و رسانههای دیجیتال طراحی شده و نسخه نهایی API عمومی آن بهزودی منتشر خواهد شد. هماکنون Eleven v3 در وبسایت شرکت قابل دسترسی است و تا پایان ژوئن (خرداد) از 80 درصد تخفیف برای استفاده از اپلیکیشن بهرهمند خواهید شد. همچنین، برای کاربردهای بلادرنگ یا مکالمات زنده، مدلهای v2.5 Turbo یا Flash هنوز هم توصیه میشوند؛ زیرا نسخه کنونی v3 برای این موارد بهینهسازی نشده و نسخه بلادرنگ آن در حال توسعه است.
از سوی دیگر، کلونهای صوتی حرفهای (Professional Voice Clones) در حال حاضر با این نسخه کاملاً سازگار نیستند و کیفیت کمتری نسبت به نسخههای قبلی ارائه میدهند؛ لذا برای پروژههایی که به ویژگیهای بیانی جدید نیاز دارند، استفاده از کلونهای صوتی آنی (Instant Voice Clones) یا صداهای تولید شده پیشنهاد میشود.