Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority


Телеграм double.newsТелеграм double.news

Схожі Новини
PS Store

Нове оновлення PS Store спрощує пошук вигідних пропозицій на PS5

Цифровий магазин PlayStation Store отримав оновлення, яке додає більше прозорості під час купівлі ігор для PlayStation 5 та PlayStation 4. Відтепер на сторінці гри відображається її початкова вартість на момент релізу.
Детальніше
Discord

Discord відкладає глобальний запуск перевірки віку після хвилі критики

Discord відтермінувала глобальний запуск обов’язкової перевірки віку, який раніше планувався на березень 2026 року. Тепер компанія планує розширити систему лише в другій половині року після хвилі критики з боку спільноти.
Детальніше
AMD Meta

Meta може отримати до 10% AMD у межах нового контракту

Meta уклала багатомільярдну угоду з виробником мікрочипів AMD, яка передбачає постачання процесорів для розвитку штучного інтелекту. У межах домовленостей Meta може отримати до 10% акцій AMD через спеціальний механізм варрантів.
Детальніше