Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority

Схожі Новини
Microsoft

Штучний інтелект від Microsoft діагностує в 4 рази точніше за лікарів

Microsoft презентувала нову систему штучного інтелекту під назвою MAI Diagnostic Orchestrator, яка у контрольованому дослідженні продемонструвала значно кращі результати діагностики складних захворювань порівняно з лікарями.
Детальніше
PNG 3

Формат зображення PNG отримав оновлено вперше за 20 років

Вперше за понад 20 років популярний графічний формат PNG отримав масштабне оновлення — офіційно оприлюднено стандарт PNG Version 3. Новий формат включає сучасні можливості, що ставлять його у пряму конкуренцію з JPEG, AVIF та WebP.
Детальніше
Instagram

Instagram дозволив слухати пісні зі Spotify прямо у сторіз

Instagram додав нову функцію, яка дозволяє користувачам слухати прев’ю пісень зі Spotify прямо в Stories. Це оновлення змінює підхід до обміну музикою в соцмережі та робить прослуховування значно зручнішим.
Детальніше