میسترال نخستین پلتفرم هوش مصنوعی صوتی خود را با عنوان Voxtral به جهان معرفی کرد
استارتاپ فرانسوی میسترال (Mistral) از نسل جدید مدلهای صوتی متنباز خود با نام «Voxtral» رونمایی کرده است. این مدلهای نوآورانه بهمنظور ارائه یک جایگزین قوی و اقتصادی در مقابله با غولهای صنعت فناوری مانند OpenAI و گوگل، با کارایی رقابتی و قیمتی به مراتب پایینتر طراحی شدهاند.
قابلیتهای گفتاری هوش مصنوعی از جمله جنبههای اصلی و حیاتی این حوزه به شمار میرود؛ اما در حال حاضر، کسبوکارها با چالش دشواری مواجه هستند: یا باید به سیستمهای متنباز رایگان که از دقت کمی برخوردارند و توانایی درک معنایی محدودی دارند، اکتفا کنند، یا به استفاده از APIهای بسته و انحصاری شرکتهای بزرگ روی آورند که با آنکه عملکرد بهتری ارائه میدهند، هزینههای بالایی را به همراه دارند و کنترل کمتری برای توسعهدهندگان فراهم میکنند. Voxtral بهطور خاص برای پر کردن این خلا طراحی شده است. این پلتفرم، دقت و درک معنایی پیشرفتهای را در قالب یک مدل متنباز و با قیمتی که به گفته میسترال «کمتر از نصف» رقبای اصلی است، به کاربران ارائه میدهد.
هوش مصنوعی صوتی Voxtral میسترال
Voxtral بر پایه مدل زبانی بزرگ Mistral Small 3.1 توسعه یافته و قابلیتهایی فراتر از تبدیل گفتار به متن ارائه میدهد؛ این مدل صوتی توانایی رونویسی فایلهای صوتی تا ۳۰ دقیقه و درک محتوای آنها تا ۴۰ دقیقه را داراست. علاوه بر این، کاربران میتوانند بهطور مستقیم از محتوای فایلهای صوتی سؤال بپرسند یا خلاصههای ساختاریافتهای از آن دریافت کنند، بدون نیاز به مراجعه به مدلهای مختلف. در واقع، این مدل در زبانهای پرتکرار مانند انگلیسی، اسپانیایی، فرانسوی، آلمانی، هندی و ایتالیایی به طرز چشمگیری عمل میکند.
میسترال این فناوری را در دو نسخه متفاوت ارائه کرده است:
- Voxtral Small: یک مدل قدرتمند ۲۴ میلیارد پارامتری که برای انجام کارهای بزرگ طراحی شده و کارایی رقابتی با مدلهایی نظیر جمینای ۲.۵ فلش، GPT-4o-mini و ElevenLabs Scribe دارد.
- Voxtral Mini: یک مدل مناسب و سبک ۳ میلیارد پارامتری که برای کاربردهای کوچکتر بهینهسازی شده است.
علاوهبر این، نسخهای بهشدت اقتصادی و بهینهشده تنها برای رونویسی به نام Voxtral Mini Transcribe نیز معرفی شده که به گفته میسترال، عملکردی بهتر از OpenAI Whisper را با هزینهای کمتر از نصف قیمت ارائه میدهد.
میسترال، بهعنوان یکی از بزرگترین حامیان اکوسیستم متنباز، مدلهای Voxtral را بهصورت رایگان برای دانلود در Hugging Face قرار داده است. همچنین، بهرهگیری از API آن با قیمت ۰.۰۰۱ دلار در دقیقه آغاز میشود و کاربران میتوانند بهزودی آن را در چتبات میسترال، Le Chat، آزمایش نمایند.