Дослідження: поетичні запити можуть обходити захист ШІ-моделей

DeepSeek

Нове дослідження науковців з DEXAI, привернуло увагу до неочікуваної слабкості сучасних великих мовних моделей. За результатами роботи, інструкції, подані у вигляді віршів, здатні обійти базові системи безпеки ШІ значно ефективніше, ніж звичайні текстові запити. Метод, який дослідники назвали «adversarial poetry», демонструє системну вразливість технологій, що лежать в основі популярних чатботів. Про це пише PCWorld.

Як працює «adversarial poetry»

Команда дослідників зібрала перелік інструкцій, які зазвичай активують у мовних моделей стандартні захисні механізми — ті, що мають запобігти видачі відповідей, пов’язаних із небезпечними чи шкідливими діями. Потім ці запити були автоматично перетворені на поетичні тексти за допомогою іншої моделі — DeepSeek.

Хоча зміст команд залишався тим самим, їх поетична форма виявилася значно ефективнішою в обході систем безпеки. Під час тестування було створено близько 1200 поетичних промптів, що охоплювали широкий спектр тем, включно з неправомірними діями, порушенням приватності, технічними маніпуляціями та іншими ризиковими сценаріями.

У результаті дослідження з’ясувалося, що поетичні інструкції набагато ефективніше обходять захисні механізми мовних моделей: вони спрацьовували частіше, ніж звичайні текстові запити, забезпечували приблизно 65% успішних обходів у середньому та у деяких моделей досягали показника близько 90%.

Які компанії перевіряли

Meta AI

У межах дослідження протестували моделі від OpenAI, Google, Meta, xAI, Anthropic, DeepSeek та інших компаній, і хоча рівень успішності обходу відрізнявся, загальна тенденція залишалася незмінною — поетичні запити значно ускладнювали роботу фільтрів безпеки; найбільш стійкою виявилася модель Anthropic Claude, яка реагувала на такі атаки лише приблизно у 5% випадків, тоді як інші системи демонстрували суттєво вищу вразливість.


Телеграм double.newsТелеграм double.news

Схожі Новини
Oracle

Ставка Oracle на ШІ призвела до найгіршого кварталу з 2001 року

Oracle на розвиток інфраструктури для штучного інтелекту починає викликати дедалі більше запитань на Волл-стріт. У четвертому кварталі 2025 року акції компанії впали приблизно на 30%, що робить цей період найгіршим для Oracle з 2001 року - часу вибуху дотком-бульбашки.
Детальніше
Windows

Провідник Windows 11 зменшить споживання оперативної пам’яті під час пошуку файлів

Microsoft тестує важливе покращення для Провідника у Windows 11, яке має знизити використання оперативної пам’яті під час пошуку файлів. Оновлення спрямоване на оптимізацію механізму пошуку, який у деяких сценаріях створював надмірне навантаження на систему.
Детальніше
Тім Кук

CEO Apple інвестував $3 млн у Nike на тлі проблем компанії

Генеральний директор Apple Тім Кук здійснив помітну інвестицію у компанію Nike, придбавши акції виробника спортивного одягу на суму близько 3 мільйонів доларів. Угода відбулася на відкритому ринку на тлі падіння вартості цінних паперів Nike та посиленого тиску з боку інвесторів.
Детальніше