هوش مصنوعی Eleven v3 رونمایی گردید؛ صداهای طبیعی‌تر با احساسات واقعی +ویدیو

خرداد 17, 1404اخرین به روز رسانی: خرداد 17, 1404

2 دقیقه خوانده شد

هوش مصنوعی Eleven v3 معرفی شد؛ طبیعی‌ترین صدا با احساسات +ویدیو

شرکت Elevenlabs به تازگی جدیدترین مدل خود برای تبدیل متن به گفتار را با نام Eleven v3 (Alpha) به بازار معرفی کرده است. این مدل به‌طور خاص بر روی تولید صداهای مصنوعی با ابراز احساسات طبیعی و واقعی تمرکز دارد و از زبان فارسی نیز پشتیبانی می‌کند.

این مدل قابلیت بازسازی احساسات گوناگون مانند نجوا، خنده، آه‌کشیدن و واکنش‌های هیجانی را به طور طبیعی‌تر نسبت به نسخه‌های قبل دارد. هدف اصلی Elevenlabs در این نسخه، رفع مشکل انتقال احساسات در صداهای مصنوعی بوده است؛ چرا که تا پیش از این، کیفیت صدا نکته‌ای کلیدی به شمار می‌رفت، اما اکنون با بازطراحی جامع، این مدل قادر به تولید صداهایی با حس واقعی‌تر و واکنش‌های طبیعی‌تر شده است.

قابلیت‌های مدل هوش مصنوعی Eleven v3

یکی از ویژگی‌های برجسته Eleven v3 برخورداری از پشتیبانی بیش از 70 زبان، از جمله فارسی و همچنین قابلیت اجرای روان و طبیعی گفت‌وگوهای چندنفره است. کاربران می‌توانند از طریق API جدید، متن‌های ساختاریافته‌ای را که شامل نوبت گویندگان می‌شود به مدل ارسال کرده و مدل به‌طور خودکار مدیریت تغییر نوبت گوینده، تحولات احساسی و حتی قطع کلام‌ها را انجام می‌دهد. این ویژگی برای تولید دیالوگ‌های چندصدایی بسیار کارآمد و موثر است و امکان ایجاد گفتگوهای پیچیده و طبیعی را فراهم می‌سازد.

توانایی کنترل شیوه بیان صداها به‌وسیله برچسب‌های صوتی درون متن نیز از دیگر امکانات مهم Eleven v3 به شمار می‌رود. این برچسب‌ها که به شکل کروشه‌های کوچک و با حروف کوچک نوشته می‌شوند، مانند [sighs] (آه کشیدن)، [excited] (هیجان‌زده) یا [whispers] (نجواکردن)، این امکان را به کاربران می‌دهند تا احساسات متفاوت و لحن گفتار را به‌راحتی تنظیم کنند. حتی می‌توان چندین برچسب را به‌طور هم‌زمان استفاده کرد تا بیان دقیق‌تر و ظریف‌تری به‌دست آید؛ به عنوان مثال، «ما موفق شدیم! [شادی][فریاد][خنده]».

طبق گفته‌های شرکت Elevenlabs، این مدل بیشتر برای کاربردهای حرفه‌ای نظیر تولید فیلم، کتاب صوتی و رسانه‌های دیجیتال طراحی شده و نسخه نهایی API عمومی آن به‌زودی منتشر خواهد شد. هم‌اکنون Eleven v3 در وب‌سایت شرکت قابل دسترسی است و تا پایان ژوئن (خرداد) از 80 درصد تخفیف برای استفاده از اپلیکیشن بهره‌مند خواهید شد. همچنین، برای کاربردهای بلادرنگ یا مکالمات زنده، مدل‌های v2.5 Turbo یا Flash هنوز هم توصیه می‌شوند؛ زیرا نسخه کنونی v3 برای این موارد بهینه‌سازی نشده و نسخه بلادرنگ آن در حال توسعه است.

از سوی دیگر، کلون‌های صوتی حرفه‌ای (Professional Voice Clones) در حال حاضر با این نسخه کاملاً سازگار نیستند و کیفیت کمتری نسبت به نسخه‌های قبلی ارائه می‌دهند؛ لذا برای پروژه‌هایی که به ویژگی‌های بیانی جدید نیاز دارند، استفاده از کلون‌های صوتی آنی (Instant Voice Clones) یا صداهای تولید شده پیشنهاد می‌شود.

خرداد 17, 1404اخرین به روز رسانی: خرداد 17, 1404

2 دقیقه خوانده شد

هوش مصنوعی Eleven v3 رونمایی گردید؛ صداهای طبیعی‌تر با احساسات واقعی +ویدیو

قابلیت‌های مدل هوش مصنوعی Eleven v3

خرید سی پی کالاف دیوتی موبایل (ارزان و معتبر)

مقایسه کاراکترهای فری فایر برای مود Clash Squad

دانلود جدیدترین بازی‌های کامپیوتری: بهترین منبع برای گیمرها

دلیل خرید گیفت کارت پلی استیشن ترکیه؛ ی هوشمندانه برای گیمرهای ایرانی

بهترین سرویس کاهش پینگ در ایران + معرفی راهکار

قابلیت‌های مدل هوش مصنوعی Eleven v3

معرفی سریع‌ترین و باریک‌ترین حافظه LPDDR5X دنیا برای گوشی‌های سال 2026

یوتیوب بار دیگر اقدام به تقویت تدابیر خود در برابر ابزارهای مسدودکننده تبلیغات کرده است

مقالات مرتبط

غول فناوری چینی به توسعه هوش مصنوعی برای ترجمه صدای حیوانات پرداخته است

گوگل قابلیت های هوش مصنوعی Bard را به دستیار شخصی خود اضافه می کند

همکاری دولت بایدن با مایکروسافت و انویدیا برای راه اندازی پروژه هوش مصنوعی

OpenAI از هوش مصنوعی ارزان تر GPT4o mini رونمایی کرد