Корпорация Google анонсировала тестовый выпуск обновлённой ИИ-модели Gemini 2.5, оснащённой опцией Computer Use. Эта функция позволяет системе работать с веб-ресурсами через браузер, воспроизводя поведение реального пользователя. Алгоритм задействует визуальный анализ и логические цепочки для осуществления операций — например, автоматического заполнения и отправки веб-форм без привлечения API или дополнительных программных средств.
Источник изображения: Solen Feyissa/Unsplash
По данным The Verge, Gemini 2.5 Computer Use ориентирована на взаимодействие с интерфейсами, разработанными для людей, а не для машинной обработки. В Google отметили, что данная технология уже использовалась в агентских возможностях AI Mode и экспериментальной разработке Project Mariner, где искусственный интеллект самостоятельно совершал действия в браузере — к примеру, помещал продукты в виртуальную корзину согласно предоставленному перечню компонентов.
Любопытно, что презентация новинки состоялась всего через сутки после того, как OpenAI представила обновления для ChatGPT в рамках ежегодного Dev Day, продолжив совершенствование опции ChatGPT Agent, умеющей решать многоэтапные задачи от лица пользователя. В свою очередь, Anthropic ещё в прошлом году выпустила модификацию модели Claude с аналогичной функцией Computer Use. Тем не менее, Google утверждает, что её разработка «опережает лучшие конкурирующие решения по ряду веб- и мобильных тестов».
В отличие от ChatGPT Agent и инструментария Anthropic, Gemini 2.5 Computer Use имеет доступ исключительно к браузеру, а не ко всей операционной системе. В компании акцентировали, что решение «пока не адаптировано для управления функциями на уровне десктопной ОС» и поддерживает 13 типов действий, среди которых запуск веб-обозревателя, текстовый ввод и перемещение объектов методом drag-and-drop.
Сообщается, что модель уже открыта для разработчиков через платформы Google AI Studio и Vertex AI. Публичная демонстрация также размещена в виртуальной среде BrowserBase, где можно увидеть, как искусственный интеллект выполняет задания вроде «пройти игру 2048» или «изучить Hacker News для выявления популярных тем обсуждения».