هوش مصنوعی

معرفی مدل هوش مصنوعی ویدیوساز Runway Gen-4.5 به همراه ویدیو

استارتاپ Runway با استفاده از تیمی که شامل تنها ۱۰۰ نفر است، به معرفی مدل ویدیویی نوین خود به نام Gen-4.5 پرداخته است. این مدل در بنچمارک‌های مختلف موفق به پشت سر گذاشتن پیشرفته‌ترین مدل‌های شرکت‌های بزرگ فناوری از جمله گوگل و OpenAI شده است. Gen-4.5 با درک دقیق از فیزیک و ارائه جزئیات بصری فوق‌العاده، مدعی است که خط بین واقعیت و ویدیوهای ساخته شده به حداقل رسیده است.

محوریت تلاش‌های Runway در Gen-4.5 تنها به کیفیت تصویری محدود نمی‌شود، بلکه بر روی دقت فیزیکی هم تاکید دارد. در مقایسه با مدل‌های پیشین که در آنها اشیا به صورت معلق یا با حرکات غیرطبیعی نمایش داده می‌شدند، Gen-4.5 توانایی درک وزن، تکانه و نیرو را داراست.

در این مدل، مایعات با توجه به قوانین واقعی فیزیک جریان می‌یابند و رفتار طبیعی از خود نشان می‌دهند. همچنین Gen-4.5 توانایی اجرای پرامپت‌های متنی پیچیده را با دقتی بی‌سابقه دارد و هیچ‌یک از جزئیات صحنه را نادیده نمی‌گیرد. خروجی‌های این مدل به میزانی به واقعیت نزدیک هستند که تمایز آنها از فیلم‌برداری واقعی به سختی امکان‌پذیر است.

معرفی مدل جدید Runway Gen-4.5

نتایج بنچمارک مستقل Video Arena (که به نظرات کاربران متکی است) بسیار باورنکردنی است. در این رتبه‌بندی، مدل Gen-4.5 به مقام اول دست یافته است. در حالیکه مدل Veo 3 از گوگل در مقام دوم و مدل معروف Sora 2 Pro متعلق به OpenAI در جایگاه هفتم قرار گرفته‌اند.

مدل Gen-4.5 در حال حاضر با جمع‌آوری ۱٬۲۴۷ امتیاز، در راس بنچمارک Artificial Analysis Text to Video ایستاده است. در این بنچمارک، کاربران انسانی خروجی‌های متنوع مدل‌ها را بدون اطلاع از نام آنها ارزیابی می‌کنند.

مدیرعامل Runway بیان کرده است: «ما با وجود یک تیم ۱۰۰ نفره توانستیم بر شرکت‌های تریلیون دلاری پیروز شویم. این مدل که با نام رمز دیوید [اشاره به داستان داوود و جالوت] شناخته می‌شود، نشان‌دهنده این است که تمرکز و عزم راسخ می‌تواند بر بودجه‌های بی‌حد و مرز غالب آید.»

علیرغم این نوآوری‌های چشمگیر، این مدل هنوز به کمال نرسیده است. Runway اعلام کرده است که Gen-4.5 ممکن است در مساله استدلال علیت‌ها دچار نواقصی باشد. به عنوان نمونه، ممکن است در ویدیو مشاهده شود که یک در پیش از چرخش دستگیره، باز می‌شود. همچنین مشکل پایداری اشیا (مانند ناپدید شدن یا تغییر شکل اشیا در طول ویدیو) هنوز به طور کامل حل نشده است، اگرچه به طور قابل توجهی کاهش یافته است.

عرضه مدل به تدریج آغاز شده و طبق اظهار شرکت، تا چند روز آینده تمامی کاربران می‌توانند به آن دسترسی پیدا کنند (از طریق پلتفرم وب و API).

مقالات مرتبط

دکمه بازگشت به بالا