Нова модель Gemini користується браузером як звичайна людина

Google Gemini 2.5

Google презентувала нову версію своєї AI-системи — Gemini 2.5 Computer Use, здатну самостійно працювати у браузері, як це робить людина. Модель може відкривати сайти, прокручувати сторінки, вводити текст, заповнювати форми й навіть перетягувати елементи на сторінці. Це дозволяє штучному інтелекту виконувати завдання там, де немає API чи прямого доступу до даних.

Як працює нова модель

Gemini 2.5 Computer Use — це спеціалізована версія моделі Gemini 2.5 Pro, побудована на основі візуального аналізу та логічного міркування. Вона отримує скріншот сторінки та інструкцію користувача, після чого обирає потрібну дію: натиснути кнопку, ввести текст або перейти за посиланням.

Процес побудований у циклі: після кожного кроку модель отримує нове зображення сторінки, аналізує зміни та продовжує виконувати завдання, доки воно не буде завершене. Такий підхід дозволяє Gemini взаємодіяти з будь-яким інтерфейсом, створеним для людей, а не лише з тими, що мають спеціальний технічний доступ.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше
QR код

Як сканувати QR-код за допомогою смартфона: швидка інструкція

QR-коди давно стали частиною повсякденного життя — від меню в кафе до швидкої авторизації в застосунках. Але не всі знають, як правильно їх сканувати зі свого смартфона. У цій статті пояснюємо, як це зробити на iPhone та Android, без додаткових програм.
Детальніше