هوش مصنوعی

ElevenLabs از هوش مصنوعی خیره‌کننده‌ای برای تولید صدا رونمایی کرد


استارتاپ هوش مصنوعی ElevenLabs چند هفته پس از راه‌اندازی مدل تبدیل متن به صدای Sound Effects، یک ابزار متن‌باز را نیز در اختیار کاربران قرار داده که پتانسیل‌های آن را نشان می‌دهند. این ابزار هوش مصنوعی تولید صدا به سازندگان اجازه می‌دهد تا برای ویدیوهای خود جلوه‌های صوتی ایجاد کنند.

هوش مصنوعی تولید صدا ElevenLabs

طبق گزارش‌های موجود، زمانی که ویدیو جدیدی را برای استفاده از این ابزار آپلود می‌کنید، چهار فریم در فواصل زمانی یک ثانیه‌ای ارائه می‌شود. سپس این فریم‌ها به‌همراه یک پرامپت به مدل GPT-4o فرستاده می‌شوند تا پرامپت جدیدی گرفته شود. از این پرامپت از طریق API Sound Effects برای تولید افکت صوتی از متن استفاده می‌شود.

درنهایت صدای تولیدشده با ویدیوی کاربر ترکیب می‌شود تا فایل آن برای دانلود ارائه شود. همچنین باید به این موضوع اشاره کرد که درحال‌حاضر حداکثر یک ویدیو 22 ثانیه‌ای می‌توان از این ابزار دریافت کرد.

استفاده از این ابزار بسیار ساده است. فقط باید ویدیو بدون صدای خود را در آن آپلود کنید تا هوش مصنوعی ElevenLabs چهار گزینه با صدا به شما ارائه کند. احتمالاً می‌توان انتظار داشت که این هوش مصنوعی در آینده به سیستم‌های بزرگ‌تری اضافه شود تا تولیدکنندگان بتوانند از مزایای سیستم تولید صدای آن بهره ببرند.

«عمار ریشی»، مدیر بخش طراحی ElevenLabs می‌گوید:

«سازندگان ویدیوهای هوش مصنوعی اغلب به‌دنبال جلوه‌های صوتی عالی هستند و ما احساس می‌کنیم که با درک فریم ویدیوهای آن‌ها و سپس پیشنهاد بهترین خروجی، می‌توانیم به روند کار آن‌ها سرعت بخشیم.»

او همچنین ویدیویی را به اشتراک گذاشته که برای ساخت آن، از فناوری‌های ElevenLabs در کنار Luma AI و Hedra کمک گرفته شده است.

درحالی‌که توسعه‌دهندگان می‌توانند به کد این ابزار در GitHub دسترسی داشته باشند، ElevenLabs وب‌سایت جدیدی هم راه‌اندازی کرده تا Sound Effects API را امتحان کنید.

مقالات مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا