Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority


Телеграм double.newsТелеграм double.news

Схожі Новини
SteamOS

Каліфорнія запроваджує перевірку віку в усіх ОС — від Windows до Linux

У Каліфорнії ухвалили новий закон, який зобов’язує розробників операційних систем перевіряти вік користувачів під час створення облікового запису. Digital Age Assurance Act набуде чинності з 1 січня 2027 року та поширюватиметься не лише на популярні комерційні платформи, а й на Linux-дистрибутиви та SteamOS.
Детальніше
Ілон Маск xAI

Маск розкритикував OpenAI у свідченнях у суді щодо безпеки ChatGPT

Під час судового процесу проти OpenAI, Ілон Маск зробив низку гучних заяв щодо безпеки штучного інтелекту. У відкритій відеодепозиції бізнесмен заявив, що «ніхто не покінчив життя самогубством через Grok, але, схоже, такі випадки були пов’язані з ChatGPT».
Детальніше