هوش مصنوعی

میسترال نخستین پلتفرم هوش مصنوعی صوتی خود را با عنوان Voxtral به جهان معرفی کرد

استارتاپ فرانسوی میسترال (Mistral) از نسل جدید مدل‌های صوتی متن‌باز خود با نام «Voxtral» رونمایی کرده است. این مدل‌های نوآورانه به‌منظور ارائه یک جایگزین قوی و اقتصادی در مقابله با غول‌های صنعت فناوری مانند OpenAI و گوگل، با کارایی رقابتی و قیمتی به مراتب پایین‌تر طراحی شده‌اند.

قابلیت‌های گفتاری هوش مصنوعی از جمله جنبه‌های اصلی و حیاتی این حوزه به شمار می‌رود؛ اما در حال حاضر، کسب‌وکارها با چالش دشواری مواجه هستند: یا باید به سیستم‌های متن‌باز رایگان که از دقت کمی برخوردارند و توانایی درک معنایی محدودی دارند، اکتفا کنند، یا به استفاده از APIهای بسته و انحصاری شرکت‌های بزرگ روی آورند که با آنکه عملکرد بهتری ارائه می‌دهند، هزینه‌های بالایی را به همراه دارند و کنترل کمتری برای توسعه‌دهندگان فراهم می‌کنند. Voxtral به‌طور خاص برای پر کردن این خلا طراحی شده است. این پلتفرم، دقت و درک معنایی پیشرفته‌ای را در قالب یک مدل متن‌باز و با قیمتی که به گفته میسترال «کمتر از نصف» رقبای اصلی است، به کاربران ارائه می‌دهد.

هوش مصنوعی صوتی Voxtral میسترال

Voxtral بر پایه مدل زبانی بزرگ Mistral Small 3.1 توسعه یافته و قابلیت‌هایی فراتر از تبدیل گفتار به متن ارائه می‌دهد؛ این مدل صوتی توانایی رونویسی فایل‌های صوتی تا ۳۰ دقیقه و درک محتوای آنها تا ۴۰ دقیقه را داراست. علاوه بر این، کاربران می‌توانند به‌طور مستقیم از محتوای فایل‌های صوتی سؤال بپرسند یا خلاصه‌های ساختاریافته‌ای از آن دریافت کنند، بدون نیاز به مراجعه به مدل‌های مختلف. در واقع، این مدل در زبان‌های پرتکرار مانند انگلیسی، اسپانیایی، فرانسوی، آلمانی، هندی و ایتالیایی به طرز چشمگیری عمل می‌کند.

میسترال این فناوری را در دو نسخه متفاوت ارائه کرده است:

  1. Voxtral Small: یک مدل قدرتمند ۲۴ میلیارد پارامتری که برای انجام کارهای بزرگ طراحی شده و کارایی رقابتی با مدل‌هایی نظیر جمینای ۲.۵ فلش، GPT-4o-mini و ElevenLabs Scribe دارد.
  2. Voxtral Mini: یک مدل مناسب و سبک ۳ میلیارد پارامتری که برای کاربردهای کوچک‌تر بهینه‌سازی شده است.

علاوه‌بر این، نسخه‌ای به‌شدت اقتصادی و بهینه‌شده تنها برای رونویسی به نام Voxtral Mini Transcribe نیز معرفی شده که به گفته میسترال، عملکردی بهتر از OpenAI Whisper را با هزینه‌ای کمتر از نصف قیمت ارائه می‌دهد.

میسترال، به‌عنوان یکی از بزرگ‌ترین حامیان اکوسیستم متن‌باز، مدل‌های Voxtral را به‌صورت رایگان برای دانلود در Hugging Face قرار داده است. همچنین، بهره‌گیری از API آن با قیمت ۰.۰۰۱ دلار در دقیقه آغاز می‌شود و کاربران می‌توانند به‌زودی آن را در چت‌بات میسترال، Le Chat، آزمایش نمایند.

مقالات مرتبط

دکمه بازگشت به بالا