هوش مصنوعی

ایجاد تصاویر سه‌بعدی از عکس‌ها با استفاده از هوش مصنوعی نوین تنسنت + ویدیو

شرکت چینی تنسنت (Tencent) مدل نوین هوش مصنوعی‌ای با نام HunyuanWorld-Voyager را معرفی کرده که توانایی تبدیل یک تصویر به ویدیوهای سه‌بعدی را دارد.

بر اساس اطلاعات ارائه‌شده، این مدل جدید به کاربران این امکان را می‌دهد که مسیر حرکت دوربین را تعیین کرده و در صحنه‌های مجازی تولیدشده براساس عکس جابجا شوند. این فناوری به‌طور همزمان ویدیو و اطلاعات عمق را تولید کرده و بدون نیاز به ابزارهای سنتی مدل‌سازی، امکان ایجاد مدل‌های سه‌بعدی را فراهم می‌آورد.

به هر حال، خروجی‌های تولیدشده توسط این مدل، به واقعی‌ترین شکل، مدل‌های سه‌بعدی محسوب نمی‌شوند؛ بلکه ویدیوهایی دوبعدی هستند که حرکت دوربین را در یک فضای سه‌بعدی با حفظ تناسب فضا شبیه‌سازی می‌کنند. به علاوه، این مدل در هر بار تنها قادر به تولید 49 فریم (تقریباً دو ثانیه ویدیو) است، اما می‌توان چندین کلیپ را به یکدیگر متصل کرده و ویدیوهای چند دقیقه‌ای ایجاد نمود.

ورودی این مدل هوش مصنوعی تنها یک تصویر و مسیر حرکت دوربین است. حرکات متنوعی نظیر جلو، عقب، چرخش و حرکت به سمت جانبی نیز به‌راحتی از طریق رابط آن قابل تنظیم هستند.

تنسنت اعلام کرده که این مدل هوش مصنوعی با بیش از 100 هزار کلیپ ویدیویی آموزش دیده است که شامل صحنه‌های واقعی و رندرهای حاصل از Unreal Engine می‌باشد. این داده‌ها به‌طور خودکار توسط نرم‌افزار خاصی پردازش شده‌اند که حرکات دوربین و عمق هر فریم را محاسبه می‌نماید.

محدودیت‌های مدل هوش مصنوعی تنسنت

با این حال، محدودیت‌های موجود در معماری Transformer موجب می‌شود که این مدل تنها توانایی شبیه‌سازی الگوهای موجود در داده‌های آموزشی را داشته باشد و در مواجهه با موقعیت‌های کاملاً جدید، به خطا برود. در نتیجه، Voyager در ایجاد چرخش‌های 360 درجه‌ای با چالش‌هایی روبه‌رو است.

در بررسی‌های عملکردی، در بنچمارک WorldScore که به دانشگاه استنفورد تعلق دارد، Voyager موفق به کسب بالاترین امتیاز کلی به میزان 77.62 شده است. این مدل در زمینه کنترل اشیاء، سازگاری سبک و کیفیت خروجی عملکرد بسیار خوبی از خود نشان داده، اما در کنترل حرکت دوربین پس از WonderWorld در رتبه دوم قرار دارد.

برای اجرای این مدل به سطح بالایی از قدرت سخت‌افزاری نیاز است، زیرا برای تولید خروجی با کیفیت 540p حداقل به 60 گیگابایت حافظه گرافیکی نیاز دارد. تنسنت در حال حاضر وزن‌های مختلف این مدل را در Hugging Face منتشر کرده و کد مربوط به اجرای آن را نیز در دسترس قرار داده است.

مقالات مرتبط

دکمه بازگشت به بالا