Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority


Телеграм double.newsТелеграм double.news

Схожі Новини
MacBook Neo

Apple стикається з дефіцитом чипів через високий попит на MacBook Neo

Apple Inc. опинилася перед новим викликом після успішного запуску MacBook Neo — попит на бюджетний ноутбук перевищив очікування, створивши ризик дефіциту ключових компонентів. Зокрема, йдеться про процесори A18 Pro, які лежать в основі пристрою.
Детальніше
YouTube

Користувачі YouTube скаржаться на 90-секундні рекламні ролики

Користувачі YouTube повідомляють про появу нових 90-секундних рекламних роликів, які неможливо пропустити. Йдеться про версію застосунку для телевізорів, де реклама традиційно довша, ніж на мобільних пристроях.
Детальніше