معرفی هوش مصنوعی FantasyTalking برای ساخت شخصیت های سخنگو! + ویدیو

آوریل 13, 2025اخرین به روز رسانی: می 8, 2025

2 دقیقه خوانده شد

معرفی هوش مصنوعی FantasyTalking برای ساخت شخصیت‌های سخنگو! + ویدیو

محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کرده اند که می تواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقع گرایانه و قابل کنترل از چهره های درحال صحبت تولید کند. این مدل از معماری پیشرفته مبتنی بر Video Diffusion Transformer بهره می برد و با استفاده از تکنیک های هماهنگ سازی صوتیتصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد می کند.

طبق توضیحات صفحه Github این پروژه، در قلب آن استراتژی دومرحله ای برای همگام سازی صوت و تصویر وجود دارد.

نحوه تولید آواتار سخنگو توسط هوش مصنوعی FantasyTalking

Your browser does not support the video tag.

در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پس زمینه را با صدای ورودی هماهنگ می کند. در مرحله دوم، جزئیات حرکات لب با دقت فریم به فریم و با استفاده از ماسک های خاصی اصلاح می شود تا کامل با صدا منطبق شود.

یکی از چالش های اساسی در حوزه گرافیک و بینایی ماشین تولید آواتارهای متحرک از تصویر ثابت بوده است. اغلب روش های قبلی برای حفظ واقع گرایی و هماهنگی با صدا، از مدل های سه بعدی میانجی مثل 3DMM یا FLAME استفاده می کردند اما این روش ها در بازتولید حرکات ظریف صورت و انیمیشن های طبیعی ناکارآمد بودند.

Your browser does not support the video tag.

در ویدیو زیر می توانید برخی نمونه های ساخته این مدل و مدل های دیگر را با هم مقایسه کنید:

FantasyTalking همچنین از ماژول ویژه برای کنترل شدت حرکات بهره می برد که امکان تنظیم میزان انیمیشن حالات چهره و بدن را فراهم می کند. این ویژگی تولید ویدیوهایی فراتر از حرکت لب ها را ممکن می کند. برخلاف بسیاری از مدل های دیگر، این سیستم برای حفظ هویت چهره از مکانیزمی مبتنی بر چهره استفاده می کند که نتایج طبیعی تر و یکپارچه تری ارائه می دهد.

Your browser does not support the video tag.

از دیگر توانایی های این مدل می توان به تولید ویدیوهای حرف زدن شخصیت ها با زوایای مختلف (نمای نزدیک، نیم تنه، تمام قد، از روبه رو یا زاویه دار)، پشتیبانی از استایل های گرافیکی مختلف (واقع گرایانه یا کارتونی) و حتی متحرک سازی (Animate) حیوانات اشاره کرد.

در مقایسه با روش های بسته و پیشرفته ای مانند OmniHuman1، مدل FantasyTalking از نظر واقع گرایی، حفظ هویت، انسجام حرکتی و تطابق صوتیتصویری کیفیت بالاتری ارائه می دهد.

آوریل 13, 2025اخرین به روز رسانی: می 8, 2025

2 دقیقه خوانده شد

معرفی هوش مصنوعی FantasyTalking برای ساخت شخصیت های سخنگو! + ویدیو

نحوه تولید آواتار سخنگو توسط هوش مصنوعی FantasyTalking

پردازنده اینتل برای گیمینگ؛ کدام سری واقعاً بازی را عوض می‌کند؟

داستان موفقیت هلیکس گیم در صنعت گیم‌هاستینگ ایران

راز کارت های تاروت در Red Dead Redemption 2 که شما ندیدید!

چرا همه گیمرها یک شبه به سمت این لپ تاپ لنوو هجوم بردند

راز خرید یک لپ تاپ گیمینگ واقعی که کسی به شما نمی گوید

مایکروسافت قابلیت «Copilot Mode» را به مرورگر Edge اضافه کرد

مدیر عامل ناشر GTA: هوش مصنوعی صرفاً یک «تردستی» محسوب می‌شود

احتمال انتشار بسته الحاقی مورد نظر برای بازی Silent Hill 2 Remake تقویت شد

این استاد ژاپنی از یک بازی ترسناک برای تدریس زبان در کنسول PS4 بهره می‌برد

پیشرفت محققان چینی؛ شبیه‌سازی شیمی کوانتومی به کمک ابرکامپیوتر کلاسیک

مادربرد Z890 AORUS Tachyon Ice از گیگابایت به رکورد جهانی DDR5-13010 دست یافت

بازگشت پورشه به استفاده از پیشرانه‌های بنزینی؛ کناره‌گیری از آرزوی خودروهای الکتریکی

نحوه تولید آواتار سخنگو توسط هوش مصنوعی FantasyTalking

گلکسی زد فولد 7 با اندروید 16 در بنچمارک گیک بنچ دیده شد

آموزش ساخت اکشن فیگور خودتان با ChatGPT + پرامپت فارسی و انگلیسی

مقالات مرتبط

شرکت OpenAI به زودی از مدل زبانی جدید وزن باز رونمایی خواهد کرد

نابرابری های اجتماعی با هوش مصنوعی ریشه کن خواهد شد؟

آمریکا به یک برنامه آپولو برای هوش مصنوعی نیاز دارد

علی‌بابا استفاده از Claude Code در محیط کار را به دلیل نگرانی‌های امنیتی ممنوع کرد