Хакери навчилися приховувати атаки на штучний інетелкт у стиснутих фото

Хакерська атака

Команда з компанії Trail of Bits виявила нову загрозу для систем штучного інтелекту: prompt injection-атаки можна приховати у звичайних зображеннях. Техніка дозволяє вставляти інструкції, невидимі для людського ока, які «розкриваються» після стиснення картинки під час завантаження. Про це пише PCWorld.

Як це працює

Prompt injection — це спосіб непомітно «підсовувати» штучному інтелекту команди, яких користувач не бачить. Наприклад, у текст можна заховати фразу, зробивши її одного кольору з фоном: людина її не прочитає, але ШІ — розпізнає.

У новому варіанті атаки інструкції вбудовуються у зображення. Коли користувач завантажує картинку до сервісу (наприклад, у Gemini чи Android Circle-to-Search), система стискає файл для економії ресурсів. У процесі стиснення прихований текст стає доступним для інтерпретації й може активувати інструкцію.

Приклад атаки

У досліді Trail of Bits було показано, що зображення після завантаження в Gemini змушувало модель надіслати календарні дані користувача сторонній особі.

Важливо, що для успішної атаки необхідні:

  • спеціально підготовлене зображення;
  • конкретний алгоритм компресії, який використовується ШІ-сервісом;
  • підлаштування під цільову систему.

Поки що немає доказів, що цей метод уже застосовується хакерами у реальних атаках.


Телеграм double.newsТелеграм double.news

Схожі Новини
OpenAI

OpenAI розробляє розумну колонку з камерою

OpenAI працює над своїм першим апаратним продуктом - «розумною» колонкою з камерою та функціями розпізнавання обличчя. За даними видання The Information, пристрій може коштувати від 200 до 300 доларів і надійти у продаж не раніше березня 2027 року.
Детальніше
ChatGPT

Журналіст вдалось «зламав» ChatGPT і Google AI за 20 хвилин

Журналіст BBC Томас Жермен продемонстрував, що змусити ChatGPT та Gemini від Google поширювати неправдиву інформацію можна буквально за кілька десятків хвилин. Для цього він використав простий SEO-прийом - створив вигадану статтю на власному сайті й дочекався, поки алгоритми її підхоплять.
Детальніше