گوگل از مدل Gemini 2.5 با ویژگی کنترل مرورگر رونمایی کرد

شرکت گوگل به تازگی از یک مدل منحصر به فرد و تخصصی تحت عنوان Gemini 2.5 Computer Use پرده برداشت. این هوش مصنوعی قادر است بهطور طبیعی و مشابه انسان، با استفاده از کلیک، اسکرول و تایپ با وبسایتها و رابطهای کاربری گرافیکی تعامل برقرار کرده و انجام کارهای پیچیده را بهطور خودکار انجام دهد.
بر خلاف مدلهای کلاسیک که برای برقراری ارتباط با نرمافزارها به API نیاز دارند، Gemini 2.5 Computer Use بهطور مستقیم قادر به درک رابط کاربری گرافیکی (GUI) است: هوش مصنوعی یک اسکرینشات از صفحه مرورگر به همراه درخواست کاربر میگیرد و اقدام به تحلیل صفحه میکند. سپس با استفاده از مهارتهای پیشرفته درک بصری، بهترین اقدام بعدی (مانند کلیک بر روی یک دکمه یا وارد کردن اطلاعات در یک فیلد) را شناسایی میکند. این فرایند با ثبت یک اسکرینشات جدید ادامه مییابد و تا زمانی که وظیفه بهطور کامل انجام نشود، ادامه خواهد یافت. این مدل در حال حاضر از ۱۳ اقدام اصلی از قبیل باز کردن مرورگر، تایپ کردن، کلیک، اسکرول و کشیدن و رها کردن (Drag and drop) پشتیبانی میکند.
مدل Gemini 2.5 Computer Use گوگل
مدل Gemini 2.5 Computer Use بهمنظور اتوماسیون کارهای پیچیدهای که در مرورگرها انجام میشود، بسیار مناسب است. گوگل برای نمایش ظرفیتهای این هوش مصنوعی، دو دمو ارائه داده است: در یکی از دموها، هوش مصنوعی وظیفه پیدا کردن اطلاعات مربوط به حیوانات خانگی از یک وبسایت را بر عهده میگیرد و این اطلاعات را در یک سیستم مدیریت مشتری (CRM) در وبسایت دیگری وارد میکند و حتی برای آنها قرار ملاقات تنظیم میکند. در دمو دیگری، این مدل یک تخته یادداشت دیجیتال آشفته را با کشیدن و رها کردن یادداشتها در دستههای مناسب، مرتب میسازد.
جالب است که این فناوری، همانند فناوریهایی است که در پروژه تحقیقاتی Project Mariner در پشت صحنه گوگل و همچنین قابلیتهای ایجنتمحور AI Mode در جستجوی گوگل وجود دارد.
معرفی این مدل تنها یک روز پس از برگزاری رویداد بزرگ OpenAI و رونمایی از قابلیت «اجرای اپلیکیشنها در ChatGPT» صورت گرفت که نشاندهنده شدت رقابت در این عرصه است. Gemini 2.5 Computer Use پاسخی مستقیم گوگل به ویژگیهای مشابه از OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) به شمار میآید.
بر اساس بنچمارکهای منتشره توسط گوگل، این مدل در زمینه کنترل وب و موبایل، عملکرد بهتری نسبت به رقبای اصلی از خود نشان داده است. با این حال، یک نکته حائز اهمیت وجود دارد: مدل گوگل در حال حاضر تنها برای مرورگرها بهینهسازی شده است و برخلاف رقبای خود، هنوز توانایی کنترل کامل سیستمعامل دسکتاپ را ندارد.
از امروز، Gemini 2.5 Computer Use بهصورت پیشنمایش برای توسعهدهندگان از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI دسترسپذیر است.



