
Команда з компанії Trail of Bits виявила нову загрозу для систем штучного інтелекту: prompt injection-атаки можна приховати у звичайних зображеннях. Техніка дозволяє вставляти інструкції, невидимі для людського ока, які «розкриваються» після стиснення картинки під час завантаження. Про це пише PCWorld.
Як це працює
Prompt injection — це спосіб непомітно «підсовувати» штучному інтелекту команди, яких користувач не бачить. Наприклад, у текст можна заховати фразу, зробивши її одного кольору з фоном: людина її не прочитає, але ШІ — розпізнає.
У новому варіанті атаки інструкції вбудовуються у зображення. Коли користувач завантажує картинку до сервісу (наприклад, у Gemini чи Android Circle-to-Search), система стискає файл для економії ресурсів. У процесі стиснення прихований текст стає доступним для інтерпретації й може активувати інструкцію.
Приклад атаки
У досліді Trail of Bits було показано, що зображення після завантаження в Gemini змушувало модель надіслати календарні дані користувача сторонній особі.
Важливо, що для успішної атаки необхідні:
- спеціально підготовлене зображення;
- конкретний алгоритм компресії, який використовується ШІ-сервісом;
- підлаштування під цільову систему.
Поки що немає доказів, що цей метод уже застосовується хакерами у реальних атаках.