
Нове дослідження науковців з DEXAI, привернуло увагу до неочікуваної слабкості сучасних великих мовних моделей. За результатами роботи, інструкції, подані у вигляді віршів, здатні обійти базові системи безпеки ШІ значно ефективніше, ніж звичайні текстові запити. Метод, який дослідники назвали «adversarial poetry», демонструє системну вразливість технологій, що лежать в основі популярних чатботів. Про це пише PCWorld.
Як працює «adversarial poetry»
Команда дослідників зібрала перелік інструкцій, які зазвичай активують у мовних моделей стандартні захисні механізми — ті, що мають запобігти видачі відповідей, пов’язаних із небезпечними чи шкідливими діями. Потім ці запити були автоматично перетворені на поетичні тексти за допомогою іншої моделі — DeepSeek.
Хоча зміст команд залишався тим самим, їх поетична форма виявилася значно ефективнішою в обході систем безпеки. Під час тестування було створено близько 1200 поетичних промптів, що охоплювали широкий спектр тем, включно з неправомірними діями, порушенням приватності, технічними маніпуляціями та іншими ризиковими сценаріями.
У результаті дослідження з’ясувалося, що поетичні інструкції набагато ефективніше обходять захисні механізми мовних моделей: вони спрацьовували частіше, ніж звичайні текстові запити, забезпечували приблизно 65% успішних обходів у середньому та у деяких моделей досягали показника близько 90%.
Які компанії перевіряли

У межах дослідження протестували моделі від OpenAI, Google, Meta, xAI, Anthropic, DeepSeek та інших компаній, і хоча рівень успішності обходу відрізнявся, загальна тенденція залишалася незмінною — поетичні запити значно ускладнювали роботу фільтрів безпеки; найбільш стійкою виявилася модель Anthropic Claude, яка реагувала на такі атаки лише приблизно у 5% випадків, тоді як інші системи демонстрували суттєво вищу вразливість.

