هوش مصنوعی جالب Nano-Banana سر و صدا به پا کرد؛ خلق تصاویر با وضوح بالا
در دنیای پرشتاب هوش مصنوعی، مدل نوآورانه و مرموزی به نام Nano-Banana به میدان آمده است که به خاطر کارایی شگفتانگیزش، توجه محافل فناوری را به خود معطوف کرده است. این مدل بدون هیچگونه معرفی رسمی، در پلتفرم LMArena حاضر شده و توانسته است دستورات متنی پیچیده را با دقتی بینظیر درک و تصاویر را ویرایش کند.
بر خلاف مدلهای شناختهشده، Nano-Banana به طور ناگهانی در بخش ویرایش تصاویر پلتفرم LMArena ظاهر شده است، بدون آنکه کمپینهای تبلیغاتی خاصی برای معرفیاش برگزار شود. اما به زودی کاربران با اشتراکگذاری نتایج شگفتانگیز، از قدرت خارقالعاده آن در پیگیری دستورات پیچیده حیرتزده شدند. برای نمونه، این مدل میتواند دستورات چندمرحلهای مانند «شخصیت پایینی را به شخصیت 2B از بازی Nier: Automata و شخصیت بالایی را به Master Chief از بازی Halo تبدیل کن» را با دقتی خیرهکننده انجام دهد و ویژگیهایی مانند نورپردازی، پرسپکتیو و ترکیب کلی صحنه را بیدستخورده نگه دارد. در تصویر زیر میتوانید مشاهده کنید که چگونه این مدل به طور ماهرانه دو تصویر متفاوت را در هم ادغام میکند:
مدل هوش مصنوعی Nano-Banana
عملکرد شگفتانگیز مدل Nano-Banana باعث بروز گمانهزنیهای متعددی در مورد هویت سازنده آن شده است. با وجود اینکه هیچ شرکتی به طور رسمی اعلام نکرده که این مدل تحت نظر آنها توسعه یافته، قویترین فرضیهها نشان میدهند که Nano-Banana ممکن است یک پروژه پنهان از سوی گوگل باشد. دلیل این فرضیه دو نکته است: نخست اینکه کیفیت و بافت تصاویر تولیدشده شباهت زیادی به مدلهای Imagen و Gemini که متعلق به گوگل هستند دارد؛ و دوم اینکه گوگل در طول تاریخ خود از نامهای میوه به عنوان اسامی رمز برای پروژههای داخلی خود استفاده کرده است.
توانمندی اصلی Nano-Banana ناشی از قابلیت آن در بازسازی لایههای مختلف تصویر است که مشابه نرمافزار فتوشاپ عمل میکند. این مدل قادر است با استفاده از دستورات ساده، پسزمینه تصاویر را تغییر دهد، حالت صورت افراد را اصلاح کند، وضوح تصاویر تار را بهبود بخشد یا حتی دو تصویر مستقل را در یک تصویر واحد ادغام نماید. همچنین در حفظ پیوستگی شخصیتها در تصاویر متوالی (مانند کمیک استریپ) و تبدیل صحنهها به سبکهای هنری مختلف (مانند آبرنگ و رنگ روغن) نیز توانمند است.
با این حال، Nano-Banana بدون نقص نیست. کاربران اشاره کردهاند که مشکلاتی مانند گلیچهای بصری در بازتابها، رندر نادرست متنها و خطاهای آناتومیکی رایج (مانند اشکال در نمایش دستان و انگشتان) وجود دارد. در حال حاضر، هیچ دسترسی رسمی به این مدل وجود ندارد، اما کاربران ممکن است به طور تصادفی در بخش «Battle» پلتفرم LMArena با آن مواجه شوند. در نهایت، اگر این مدل واقعاً یک پروژه از گوگل باشد، احتمال دارد که عرضه رسمی آن به طور چشمگیری رقابت در بازار هوش مصنوعی تولید تصویر را متحول کند.