Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority


Телеграм double.newsТелеграм double.news

Схожі Новини
iPhone, iPad

Apple випустила оновлення iOS для старих iPhone та iPad

Apple випустила нові оновлення операційної системи для старіших моделей пристроїв, які не підтримують актуальні версії програмного забезпечення. Йдеться про релізи iOS 16.7.15, iPadOS 16.7.15, iOS 15.8.7 та iPadOS 15.8.7.
Детальніше
Google Play

Google Play дозволить безкоштовно тестувати платні ігри перед покупкою

Google запускає нову функцію Game Trials у магазині Google Play, яка дозволить користувачам безкоштовно спробувати платні мобільні ігри перед їх придбанням. Нововведення має спростити вибір ігор та дати гравцям можливість оцінити геймплей перед покупкою.
Детальніше
Telegram

У світі зафіксували масштабні збої в роботі Telegram

Користувачі месенджера Telegram повідомляли про перебої у його роботі в різних країнах світу. Проблеми почали фіксуватися вранці 12 березня і торкнулися користувачів у Європі, США та інших регіонах.
Детальніше