Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority

Схожі Новини
Bitcoin

Біткоїн зростає до $94 000 на тлі пом’якшення риторики Трампа

Біткоїн зріс майже на 3%, досягнувши $94 000, на фоні заяв президента США Дональда Трампа про відсутність намірів звільняти голову Федеральної резервної системи Джерома Пауелла. Це зменшило побоювання інвесторів щодо незалежності ФРС та сприяло зростанню ринку криптовалют.
Детальніше
Old YouTube

YouTube святкує 20-річчя першого відео: як “Me at the zoo” змінило інтернет

23 квітня 2005 року співзасновник YouTube Джавед Карім завантажив перше відео на платформу — "Me at the zoo". Цей 19-секундний кліп, знятий у зоопарку Сан-Дієго, де Карім розповідає про довгі хоботи слонів, став початком нової ери в інтернеті. Станом на квітень 2025 року відео переглянули понад 355 мільйонів разів.​
Детальніше