Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority

Схожі Новини
Alibaba Qwen

Alibaba готується до запуску нової флагманської AI-моделі Qwen 3

Китайський технологічний гігант Alibaba планує випустити свою оновлену модель штучного інтелекту Qwen 3 вже у квітні. Цей реліз може зміцнити позиції компанії на фоні глобальної конкуренції з боку OpenAI та інших гравців ринку.
Детальніше
Google Gemini AI

Google розробляє дитячу версію штучного інтелекту Gemini для допомоги з домашніми завданнями

Google розробляє версію своєї моделі штучного інтелекту Gemini, спеціально призначену для дітей, яка допомагатиме їм з домашніми завданнями та створенням історій. Це стало відомо завдяки аналізу коду в додатку Google, проведеному Android Authority. У коді були виявлені рядки, які вказують на функції, орієнтовані на дитячу аудиторію.
Детальніше
Реалістична фотографія коня згенерована за допомогою ChatGPT

Новий генератор зображень від OpenAI став доступним для всіх користувачів ChatGPT

OpenAI оголосила, що її новий генератор зображень, раніше доступний лише для платних користувачів, тепер відкритий для всіх. Інструмент базується на моделі GPT-4o і дозволяє генерувати зображення за текстовими запитами прямо в інтерфейсі ChatGPT.
Детальніше