ایجاد تصاویر سه‌بعدی از عکس‌ها با استفاده از هوش مصنوعی نوین تنسنت + ویدیو

سپتامبر 4, 2025اخرین به روز رسانی: سپتامبر 5, 2025

2 دقیقه خوانده شد

تبدیل عکس به دنیای سه‌بعدی با هوش مصنوعی جدید تنسنت + ویدیو

شرکت چینی تنسنت (Tencent) مدل نوین هوش مصنوعی‌ای با نام HunyuanWorld-Voyager را معرفی کرده که توانایی تبدیل یک تصویر به ویدیوهای سه‌بعدی را دارد.

بر اساس اطلاعات ارائه‌شده، این مدل جدید به کاربران این امکان را می‌دهد که مسیر حرکت دوربین را تعیین کرده و در صحنه‌های مجازی تولیدشده براساس عکس جابجا شوند. این فناوری به‌طور همزمان ویدیو و اطلاعات عمق را تولید کرده و بدون نیاز به ابزارهای سنتی مدل‌سازی، امکان ایجاد مدل‌های سه‌بعدی را فراهم می‌آورد.

به هر حال، خروجی‌های تولیدشده توسط این مدل، به واقعی‌ترین شکل، مدل‌های سه‌بعدی محسوب نمی‌شوند؛ بلکه ویدیوهایی دوبعدی هستند که حرکت دوربین را در یک فضای سه‌بعدی با حفظ تناسب فضا شبیه‌سازی می‌کنند. به علاوه، این مدل در هر بار تنها قادر به تولید 49 فریم (تقریباً دو ثانیه ویدیو) است، اما می‌توان چندین کلیپ را به یکدیگر متصل کرده و ویدیوهای چند دقیقه‌ای ایجاد نمود.

ورودی این مدل هوش مصنوعی تنها یک تصویر و مسیر حرکت دوربین است. حرکات متنوعی نظیر جلو، عقب، چرخش و حرکت به سمت جانبی نیز به‌راحتی از طریق رابط آن قابل تنظیم هستند.

تنسنت اعلام کرده که این مدل هوش مصنوعی با بیش از 100 هزار کلیپ ویدیویی آموزش دیده است که شامل صحنه‌های واقعی و رندرهای حاصل از Unreal Engine می‌باشد. این داده‌ها به‌طور خودکار توسط نرم‌افزار خاصی پردازش شده‌اند که حرکات دوربین و عمق هر فریم را محاسبه می‌نماید.

محدودیت‌های مدل هوش مصنوعی تنسنت

با این حال، محدودیت‌های موجود در معماری Transformer موجب می‌شود که این مدل تنها توانایی شبیه‌سازی الگوهای موجود در داده‌های آموزشی را داشته باشد و در مواجهه با موقعیت‌های کاملاً جدید، به خطا برود. در نتیجه، Voyager در ایجاد چرخش‌های 360 درجه‌ای با چالش‌هایی روبه‌رو است.

در بررسی‌های عملکردی، در بنچمارک WorldScore که به دانشگاه استنفورد تعلق دارد، Voyager موفق به کسب بالاترین امتیاز کلی به میزان 77.62 شده است. این مدل در زمینه کنترل اشیاء، سازگاری سبک و کیفیت خروجی عملکرد بسیار خوبی از خود نشان داده، اما در کنترل حرکت دوربین پس از WonderWorld در رتبه دوم قرار دارد.

برای اجرای این مدل به سطح بالایی از قدرت سخت‌افزاری نیاز است، زیرا برای تولید خروجی با کیفیت 540p حداقل به 60 گیگابایت حافظه گرافیکی نیاز دارد. تنسنت در حال حاضر وزن‌های مختلف این مدل را در Hugging Face منتشر کرده و کد مربوط به اجرای آن را نیز در دسترس قرار داده است.

سپتامبر 4, 2025اخرین به روز رسانی: سپتامبر 5, 2025

2 دقیقه خوانده شد

ایجاد تصاویر سه‌بعدی از عکس‌ها با استفاده از هوش مصنوعی نوین تنسنت + ویدیو

محدودیت‌های مدل هوش مصنوعی تنسنت

پردازنده اینتل برای گیمینگ؛ کدام سری واقعاً بازی را عوض می‌کند؟

داستان موفقیت هلیکس گیم در صنعت گیم‌هاستینگ ایران

راز کارت های تاروت در Red Dead Redemption 2 که شما ندیدید!

چرا همه گیمرها یک شبه به سمت این لپ تاپ لنوو هجوم بردند

راز خرید یک لپ تاپ گیمینگ واقعی که کسی به شما نمی گوید

مایکروسافت قابلیت «Copilot Mode» را به مرورگر Edge اضافه کرد

مدیر عامل ناشر GTA: هوش مصنوعی صرفاً یک «تردستی» محسوب می‌شود

احتمال انتشار بسته الحاقی مورد نظر برای بازی Silent Hill 2 Remake تقویت شد

این استاد ژاپنی از یک بازی ترسناک برای تدریس زبان در کنسول PS4 بهره می‌برد

پیشرفت محققان چینی؛ شبیه‌سازی شیمی کوانتومی به کمک ابرکامپیوتر کلاسیک

مادربرد Z890 AORUS Tachyon Ice از گیگابایت به رکورد جهانی DDR5-13010 دست یافت

بازگشت پورشه به استفاده از پیشرانه‌های بنزینی؛ کناره‌گیری از آرزوی خودروهای الکتریکی

محدودیت‌های مدل هوش مصنوعی تنسنت

بی ام و XM منصوری معرفی شد، چالش برانگیزترین تصویر از یک خودرو

فورد F-150 لایتنینگ سوپرتراک به عنوان سریع‌ترین پیکاپ در پیست نوربرگ‌رینگ شناخته شد

مقالات مرتبط

کاربران نمی خواهند هوش مصنوعی صرفاً شبیه به انسان باشد

تزار هوش مصنوعی ایالات متحده، افسانه نابودی مشاغل به وسیله AI را بیش از حد بزرگنمایی شده می‌داند

با کمک هوش مصنوعی لباس رسمی سال 2026 منچسترسیتی را طراحی کنید

افزایش احتمال همکاری اپل و بایت دنس برای ارائه هوش مصنوعی به کاربران چینی آیفون