
Компанія Google розширює можливості свого чат-бота AI Mode, додаючи мультимодальні функції, що дозволяють аналізувати та відповідати на запити, засновані на зображеннях.
Завдяки інтеграції спеціальної версії штучного інтелекту Gemini з технологією розпізнавання зображень Google Lens, користувачі можуть завантажувати або фотографувати об’єкти, отримуючи детальні та контекстуально релевантні відповіді з посиланнями на додаткову інформацію. Ця функція доступна в додатку Google на платформах Android та iOS.
Роббі Штейн, віце-президент з продуктів Google Search, зазначає:
“AI Mode базується на наших багаторічних напрацюваннях у сфері візуального пошуку та піднімає його на новий рівень. Завдяки мультимодальним можливостям Gemini, AI Mode може розуміти всю сцену на зображенні, включаючи контекст взаємодії об’єктів, їхні матеріали, кольори, форми та розташування.”
Оновлений AI Mode використовує техніку “fan-out”, яка генерує множинні запити щодо зображення та об’єктів на ньому, забезпечуючи більш точні та детальні відповіді. Наприклад, система може ідентифікувати книги на зображенні, рекомендувати схожі видання з високими оцінками та відповідати на додаткові питання для подальшого уточнення рекомендацій.
Спочатку AI Mode був доступний лише для підписників Google One AI Premium у рамках програми Labs. Тепер Google розпочала розширення доступу до “мільйонів” користувачів Labs у США, виходячи за межі платних підписників.