هوش مصنوعی

هوش مصنوعی Eleven v3 رونمایی گردید؛ صداهای طبیعی‌تر با احساسات واقعی +ویدیو

شرکت Elevenlabs به تازگی جدیدترین مدل خود برای تبدیل متن به گفتار را با نام Eleven v3 (Alpha) به بازار معرفی کرده است. این مدل به‌طور خاص بر روی تولید صداهای مصنوعی با ابراز احساسات طبیعی و واقعی تمرکز دارد و از زبان فارسی نیز پشتیبانی می‌کند.

این مدل قابلیت بازسازی احساسات گوناگون مانند نجوا، خنده، آه‌کشیدن و واکنش‌های هیجانی را به طور طبیعی‌تر نسبت به نسخه‌های قبل دارد. هدف اصلی Elevenlabs در این نسخه، رفع مشکل انتقال احساسات در صداهای مصنوعی بوده است؛ چرا که تا پیش از این، کیفیت صدا نکته‌ای کلیدی به شمار می‌رفت، اما اکنون با بازطراحی جامع، این مدل قادر به تولید صداهایی با حس واقعی‌تر و واکنش‌های طبیعی‌تر شده است.

قابلیت‌های مدل هوش مصنوعی Eleven v3

یکی از ویژگی‌های برجسته Eleven v3 برخورداری از پشتیبانی بیش از 70 زبان، از جمله فارسی و همچنین قابلیت اجرای روان و طبیعی گفت‌وگوهای چندنفره است. کاربران می‌توانند از طریق API جدید، متن‌های ساختاریافته‌ای را که شامل نوبت گویندگان می‌شود به مدل ارسال کرده و مدل به‌طور خودکار مدیریت تغییر نوبت گوینده، تحولات احساسی و حتی قطع کلام‌ها را انجام می‌دهد. این ویژگی برای تولید دیالوگ‌های چندصدایی بسیار کارآمد و موثر است و امکان ایجاد گفتگوهای پیچیده و طبیعی را فراهم می‌سازد.

توانایی کنترل شیوه بیان صداها به‌وسیله برچسب‌های صوتی درون متن نیز از دیگر امکانات مهم Eleven v3 به شمار می‌رود. این برچسب‌ها که به شکل کروشه‌های کوچک و با حروف کوچک نوشته می‌شوند، مانند [sighs] (آه کشیدن)، [excited] (هیجان‌زده) یا [whispers] (نجواکردن)، این امکان را به کاربران می‌دهند تا احساسات متفاوت و لحن گفتار را به‌راحتی تنظیم کنند. حتی می‌توان چندین برچسب را به‌طور هم‌زمان استفاده کرد تا بیان دقیق‌تر و ظریف‌تری به‌دست آید؛ به عنوان مثال، «ما موفق شدیم! [شادی][فریاد][خنده]».

طبق گفته‌های شرکت Elevenlabs، این مدل بیشتر برای کاربردهای حرفه‌ای نظیر تولید فیلم، کتاب صوتی و رسانه‌های دیجیتال طراحی شده و نسخه نهایی API عمومی آن به‌زودی منتشر خواهد شد. هم‌اکنون Eleven v3 در وب‌سایت شرکت قابل دسترسی است و تا پایان ژوئن (خرداد) از 80 درصد تخفیف برای استفاده از اپلیکیشن بهره‌مند خواهید شد. همچنین، برای کاربردهای بلادرنگ یا مکالمات زنده، مدل‌های v2.5 Turbo یا Flash هنوز هم توصیه می‌شوند؛ زیرا نسخه کنونی v3 برای این موارد بهینه‌سازی نشده و نسخه بلادرنگ آن در حال توسعه است.

از سوی دیگر، کلون‌های صوتی حرفه‌ای (Professional Voice Clones) در حال حاضر با این نسخه کاملاً سازگار نیستند و کیفیت کمتری نسبت به نسخه‌های قبلی ارائه می‌دهند؛ لذا برای پروژه‌هایی که به ویژگی‌های بیانی جدید نیاز دارند، استفاده از کلون‌های صوتی آنی (Instant Voice Clones) یا صداهای تولید شده پیشنهاد می‌شود.

مقالات مرتبط

دکمه بازگشت به بالا