هوش مصنوعی

گوگل از مدل Gemini 2.5 با ویژگی کنترل مرورگر رونمایی کرد

شرکت گوگل به تازگی از یک مدل منحصر به فرد و تخصصی تحت عنوان Gemini 2.5 Computer Use پرده برداشت. این هوش مصنوعی قادر است به‌طور طبیعی و مشابه انسان، با استفاده از کلیک، اسکرول و تایپ با وب‌سایت‌ها و رابط‌های کاربری گرافیکی تعامل برقرار کرده و انجام کارهای پیچیده را به‌طور خودکار انجام دهد.

بر خلاف مدل‌های کلاسیک که برای برقراری ارتباط با نرم‌افزارها به API نیاز دارند، Gemini 2.5 Computer Use به‌طور مستقیم قادر به درک رابط کاربری گرافیکی (GUI) است: هوش مصنوعی یک اسکرین‌شات از صفحه مرورگر به همراه درخواست کاربر می‌گیرد و اقدام به تحلیل صفحه می‌کند. سپس با استفاده از مهارت‌های پیشرفته درک بصری، بهترین اقدام بعدی (مانند کلیک بر روی یک دکمه یا وارد کردن اطلاعات در یک فیلد) را شناسایی می‌کند. این فرایند با ثبت یک اسکرین‌شات جدید ادامه می‌یابد و تا زمانی که وظیفه به‌طور کامل انجام نشود، ادامه خواهد یافت. این مدل در حال حاضر از ۱۳ اقدام اصلی از قبیل باز کردن مرورگر، تایپ کردن، کلیک، اسکرول و کشیدن و رها کردن (Drag and drop) پشتیبانی می‌کند.

مدل Gemini 2.5 Computer Use گوگل

مدل Gemini 2.5 Computer Use به‌منظور اتوماسیون کارهای پیچیده‌ای که در مرورگرها انجام می‌شود، بسیار مناسب است. گوگل برای نمایش ظرفیت‌های این هوش مصنوعی، دو دمو ارائه داده است: در یکی از دموها، هوش مصنوعی وظیفه‌ پیدا کردن اطلاعات مربوط به حیوانات خانگی از یک وب‌سایت را بر عهده می‌گیرد و این اطلاعات را در یک سیستم مدیریت مشتری (CRM) در وب‌سایت دیگری وارد می‌کند و حتی برای آن‌ها قرار ملاقات تنظیم می‌کند. در دمو دیگری، این مدل یک تخته یادداشت دیجیتال آشفته را با کشیدن و رها کردن یادداشت‌ها در دسته‌های مناسب، مرتب می‌سازد.

جالب است که این فناوری، همانند فناوری‌هایی است که در پروژه تحقیقاتی Project Mariner در پشت صحنه گوگل و همچنین قابلیت‌های ایجنت‌محور AI Mode در جستجوی گوگل وجود دارد.

فرایند انجام کار مدل Gemini 2.5 Computer Use

معرفی این مدل تنها یک روز پس از برگزاری رویداد بزرگ OpenAI و رونمایی از قابلیت «اجرای اپلیکیشن‌ها در ChatGPT» صورت گرفت که نشان‌دهنده شدت رقابت در این عرصه است. Gemini 2.5 Computer Use پاسخی مستقیم گوگل به ویژگی‌های مشابه از OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) به شمار می‌آید.

مقایسه بنچمارک‌های Gemini 2.5 Computer Use با مدل‌های رقیب

بر اساس بنچمارک‌های منتشره توسط گوگل، این مدل در زمینه کنترل وب و موبایل، عملکرد بهتری نسبت به رقبای اصلی از خود نشان داده است. با این حال، یک نکته حائز اهمیت وجود دارد: مدل گوگل در حال حاضر تنها برای مرورگرها بهینه‌سازی شده است و برخلاف رقبای خود، هنوز توانایی کنترل کامل سیستم‌عامل دسکتاپ را ندارد.

از امروز، Gemini 2.5 Computer Use به‌صورت پیش‌نمایش برای توسعه‌دهندگان از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI دسترس‌پذیر است.

مقالات مرتبط

دکمه بازگشت به بالا