Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority

Схожі Новини
Microsoft продовжує підтримку Office на Windows 10 до 2028 року

Microsoft продовжує підтримку Office на Windows

Коли мова заходить про завершення підтримки ОС, зазвичай слід чекати лавиноподібного припинення оновлень і делікатного, але наполегливого підштовхування до апгрейду. Та цього разу Microsoft несподівано змінила правила гри: оновлення безпеки для Microsoft 365 на Windows 10 триватимуть ще три роки після офіційного “кінця” самої ОС.
Детальніше
Netflix

Netflix презентував Upfront 2025: нові формати реклами та амбітні плани

На заході Upfront 2025 Netflix анонсував інтерактивну AI-рекламу, зростання аудиторії з підтримкою реклами до 94 млн користувачів і плани запуску власної рекламної платформи до кінця року.
Детальніше