Дослідники виявили спосіб зламу Google Gemini за допомогою власних інструментів

Google Gemini

Дослідники з Каліфорнійського університету в Сан-Дієго та Університету Вісконсина виявили, що функція донавчання в Google Gemini може бути використана для підвищення ефективності атак типу “впровадження підказок” (prompt injection). Цей метод, названий “Fun-Tuning”, дозволяє зловмисникам автоматично тестувати та вдосконалювати шкідливі підказки, використовуючи зворотний зв’язок від моделі.

“Fun-Tuning” працює шляхом додавання незрозумілих префіксів та суфіксів до підказок, що значно підвищує ймовірність успішної атаки. Наприклад, підказка, яка спочатку не спрацьовувала, ставала ефективною після додавання таких елементів, як “wandel ! ! ! !” та “formatted ! ASAP !”. У тестах цей метод досяг успіху в 65% випадків на моделі Gemini 1.5 Flash та в 82% на старішій версії Gemini 1.0 Pro, що більш ніж удвічі перевищує базові показники без використання “Fun-Tuning”.

Google заявила, що захист від такого типу атак є пріоритетом для компанії, і вони регулярно проводять внутрішні тести для виявлення та усунення вразливостей. Однак дослідники вважають, що виправлення цієї проблеми може ускладнити корисні функції донавчання для розробників.

Джерело: Android Authority


Телеграм double.newsТелеграм double.news

Схожі Новини
Pinterest CEO

CEO Pinterest підтримав заборону соцмереж для дітей до 16 років

Генеральний директор Pinterest Білл Реді виступив за глобальну заборону соціальних мереж для користувачів до 16 років. Він вважає, що сучасні платформи становлять ризик для психічного здоров’я дітей і потребують жорсткішого регулювання.
Детальніше
Copilot

Microsoft зменьшує інтеграцію Copilot у Windows 11 через критику користувачів

Microsoft переглядає підхід до інтеграції штучного інтелекту у Windows 11, зменшуючи кількість функцій Copilot у системі. Компанія реагує на відгуки користувачів і робить ставку на більш вибіркове використання AI.
Детальніше
Ілон Маск X

Суд визнав Ілона Маска винним у введенні в оману інвесторів Twitter

Федеральний суд у США дійшов висновку, що Ілон Маск вводив в оману інвесторів Twitter у 2022 році під час угоди про купівлю компанії. Йдеться про заяви мільярдера щодо кількості ботів, які могли вплинути на вартість акцій.
Детальніше