Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority


Телеграм double.newsТелеграм double.news

Схожі Новини
Valve Steam Machine

Valve обіцяє тисячі підтримуваних ігор для Steam Machine на старті

Нова Steam Machine від Valve може стартувати з набагато потужнішою бібліотекою перевірених ігор, ніж свого часу Steam Deck. У компанії заявляють, що розробникам буде значно простіше отримати статус верифікованої гри для Steam Machine, що дозволить користувачам одразу після покупки отримати доступ до тисяч ігор без додаткових налаштувань.
Детальніше
Gemini

Apple заплатить Google до $5 млрд за інтеграцію Gemini у Siri

Партнерство між Apple та Google у сфері штучного інтелекту може стати однією з наймасштабніших угод на ринку AI-сервісів за останні роки. Йдеться про інтеграцію мовних моделей Gemini у Siri та екосистему Apple Intelligence, вартість якої, за оцінками аналітиків, може сягнути $5 млрд.
Детальніше
MrBeast

Найпопулярніший YouTube-блогер MrBeast змушений позичати гроші

Найпопулярніший YouTube-блогер світу MrBeast, справжнє ім’я якого Джиммі Дональдсон, заявив, що попри мільярдні статки фактично не має вільних коштів. За його словами, він змушений позичати гроші, оскільки майже весь дохід постійно реінвестує у власні проєкти.
Детальніше