Нова модель Gemini користується браузером як звичайна людина

Google Gemini 2.5

Google презентувала нову версію своєї AI-системи — Gemini 2.5 Computer Use, здатну самостійно працювати у браузері, як це робить людина. Модель може відкривати сайти, прокручувати сторінки, вводити текст, заповнювати форми й навіть перетягувати елементи на сторінці. Це дозволяє штучному інтелекту виконувати завдання там, де немає API чи прямого доступу до даних.

Як працює нова модель

Gemini 2.5 Computer Use — це спеціалізована версія моделі Gemini 2.5 Pro, побудована на основі візуального аналізу та логічного міркування. Вона отримує скріншот сторінки та інструкцію користувача, після чого обирає потрібну дію: натиснути кнопку, ввести текст або перейти за посиланням.

Процес побудований у циклі: після кожного кроку модель отримує нове зображення сторінки, аналізує зміни та продовжує виконувати завдання, доки воно не буде завершене. Такий підхід дозволяє Gemini взаємодіяти з будь-яким інтерфейсом, створеним для людей, а не лише з тими, що мають спеціальний технічний доступ.


Телеграм double.newsТелеграм double.news

Схожі Новини
Джеймс Вебб

Джеймс Вебб відкрив найдавнішу відому галактику у Всесвіті

NASA повідомило про відкриття найвіддаленішої та найдавнішої галактики, яку коли-небудь спостерігало людство. Космічний телескоп Джеймс Вебб зафіксував галактику MoM-z14 у стані, в якому вона перебувала лише через 280 мільйонів років після Великого вибуху.
Детальніше
Сем Альтман OpenAI

OpenAI представить свій перший AI-пристрій не раніше 2027 року

OpenAI офіційно відмовилася від використання назви «io» для своєї майбутньої лінійки пристроїв зі штучним інтелектом, про що стало відомо з матеріалів судового розгляду щодо порушення торговельної марки. Водночас компанія уточнила терміни запуску першого апаратного продукту, він не з’явиться у продажу раніше кінця лютого 2027 року, хоча раніше реліз планували на другу половину 2026-го.
Детальніше