
Google презентувала нову версію своєї AI-системи — Gemini 2.5 Computer Use, здатну самостійно працювати у браузері, як це робить людина. Модель може відкривати сайти, прокручувати сторінки, вводити текст, заповнювати форми й навіть перетягувати елементи на сторінці. Це дозволяє штучному інтелекту виконувати завдання там, де немає API чи прямого доступу до даних.
Як працює нова модель
Gemini 2.5 Computer Use — це спеціалізована версія моделі Gemini 2.5 Pro, побудована на основі візуального аналізу та логічного міркування. Вона отримує скріншот сторінки та інструкцію користувача, після чого обирає потрібну дію: натиснути кнопку, ввести текст або перейти за посиланням.
Процес побудований у циклі: після кожного кроку модель отримує нове зображення сторінки, аналізує зміни та продовжує виконувати завдання, доки воно не буде завершене. Такий підхід дозволяє Gemini взаємодіяти з будь-яким інтерфейсом, створеним для людей, а не лише з тими, що мають спеціальний технічний доступ.