ایجاد تصاویر سهبعدی از عکسها با استفاده از هوش مصنوعی نوین تنسنت + ویدیو

شرکت چینی تنسنت (Tencent) مدل نوین هوش مصنوعیای با نام HunyuanWorld-Voyager را معرفی کرده که توانایی تبدیل یک تصویر به ویدیوهای سهبعدی را دارد.
بر اساس اطلاعات ارائهشده، این مدل جدید به کاربران این امکان را میدهد که مسیر حرکت دوربین را تعیین کرده و در صحنههای مجازی تولیدشده براساس عکس جابجا شوند. این فناوری بهطور همزمان ویدیو و اطلاعات عمق را تولید کرده و بدون نیاز به ابزارهای سنتی مدلسازی، امکان ایجاد مدلهای سهبعدی را فراهم میآورد.
به هر حال، خروجیهای تولیدشده توسط این مدل، به واقعیترین شکل، مدلهای سهبعدی محسوب نمیشوند؛ بلکه ویدیوهایی دوبعدی هستند که حرکت دوربین را در یک فضای سهبعدی با حفظ تناسب فضا شبیهسازی میکنند. به علاوه، این مدل در هر بار تنها قادر به تولید 49 فریم (تقریباً دو ثانیه ویدیو) است، اما میتوان چندین کلیپ را به یکدیگر متصل کرده و ویدیوهای چند دقیقهای ایجاد نمود.
ورودی این مدل هوش مصنوعی تنها یک تصویر و مسیر حرکت دوربین است. حرکات متنوعی نظیر جلو، عقب، چرخش و حرکت به سمت جانبی نیز بهراحتی از طریق رابط آن قابل تنظیم هستند.
تنسنت اعلام کرده که این مدل هوش مصنوعی با بیش از 100 هزار کلیپ ویدیویی آموزش دیده است که شامل صحنههای واقعی و رندرهای حاصل از Unreal Engine میباشد. این دادهها بهطور خودکار توسط نرمافزار خاصی پردازش شدهاند که حرکات دوربین و عمق هر فریم را محاسبه مینماید.
محدودیتهای مدل هوش مصنوعی تنسنت
با این حال، محدودیتهای موجود در معماری Transformer موجب میشود که این مدل تنها توانایی شبیهسازی الگوهای موجود در دادههای آموزشی را داشته باشد و در مواجهه با موقعیتهای کاملاً جدید، به خطا برود. در نتیجه، Voyager در ایجاد چرخشهای 360 درجهای با چالشهایی روبهرو است.
در بررسیهای عملکردی، در بنچمارک WorldScore که به دانشگاه استنفورد تعلق دارد، Voyager موفق به کسب بالاترین امتیاز کلی به میزان 77.62 شده است. این مدل در زمینه کنترل اشیاء، سازگاری سبک و کیفیت خروجی عملکرد بسیار خوبی از خود نشان داده، اما در کنترل حرکت دوربین پس از WonderWorld در رتبه دوم قرار دارد.
برای اجرای این مدل به سطح بالایی از قدرت سختافزاری نیاز است، زیرا برای تولید خروجی با کیفیت 540p حداقل به 60 گیگابایت حافظه گرافیکی نیاز دارد. تنسنت در حال حاضر وزنهای مختلف این مدل را در Hugging Face منتشر کرده و کد مربوط به اجرای آن را نیز در دسترس قرار داده است.




