Технології

Дослідження: поетичні запити можуть обходити захист ШІ-моделей

25.11.2025

Нове дослідження науковців з DEXAI, привернуло увагу до неочікуваної слабкості сучасних великих мовних моделей. За результатами роботи, інструкції, подані у вигляді віршів, здатні обійти базові системи безпеки ШІ значно ефективніше, ніж звичайні текстові запити. Метод, який дослідники назвали «adversarial poetry», демонструє системну вразливість технологій, що лежать в основі популярних чатботів. Про це пише PCWorld.

Як працює «adversarial poetry»

Команда дослідників зібрала перелік інструкцій, які зазвичай активують у мовних моделей стандартні захисні механізми — ті, що мають запобігти видачі відповідей, пов’язаних із небезпечними чи шкідливими діями. Потім ці запити були автоматично перетворені на поетичні тексти за допомогою іншої моделі — DeepSeek.

Хоча зміст команд залишався тим самим, їх поетична форма виявилася значно ефективнішою в обході систем безпеки. Під час тестування було створено близько 1200 поетичних промптів, що охоплювали широкий спектр тем, включно з неправомірними діями, порушенням приватності, технічними маніпуляціями та іншими ризиковими сценаріями.

У результаті дослідження з’ясувалося, що поетичні інструкції набагато ефективніше обходять захисні механізми мовних моделей: вони спрацьовували частіше, ніж звичайні текстові запити, забезпечували приблизно 65% успішних обходів у середньому та у деяких моделей досягали показника близько 90%.

Які компанії перевіряли

У межах дослідження протестували моделі від OpenAI, Google, Meta, xAI, Anthropic, DeepSeek та інших компаній, і хоча рівень успішності обходу відрізнявся, загальна тенденція залишалася незмінною — поетичні запити значно ускладнювали роботу фільтрів безпеки; найбільш стійкою виявилася модель Anthropic Claude, яка реагувала на такі атаки лише приблизно у 5% випадків, тоді як інші системи демонстрували суттєво вищу вразливість.

Схожі Новини

Технології

Веб версія WhatsApp нарешті отримує голосові та відеодзвінки

Вебверсія WhatsApp, яка існує з 2015 року, вперше отримує повноцінну підтримку голосових і відеодзвінків. Функція вже почала поступово з’являтися у користувачів бета-версії WhatsApp Web і дозволяє здійснювати дзвінки без встановлення десктопного застосунку.

12 години тому

Детальніше

Технології

Spotify вперше перевищив 750 мільйонів активних користувачів на місяць

Сервіс потокового аудіо Spotify оприлюднив фінансові результати за четвертий квартал 2025 року, зафіксувавши рекордне зростання аудиторії. Компанія завершила рік із 751 мільйоном щомісячних активних користувачів, що стало найвищим показником за всю історію платформи.

12 години тому

Детальніше

Технології

Штучний інтелект змушує працівників працювати швидше й довше

Попри поширену обіцянку, що штучний інтелект має зменшити рутину й звільнити час для важливіших завдань, нове дослідження показує протилежний ефект. Автори Harvard Business Review дійшли висновку, що впровадження генеративного ШІ не скорочує обсяг роботи, а системно посилює її інтенсивність.

13 години тому

Детальніше

Netflix показав новий трейлер другого сезону «One Piece»

Вийшов перший трейлер Посіпаки і монстряки

Веб версія WhatsApp нарешті отримує голосові та відеодзвінки

Популярні Теги

Дослідження: поетичні запити можуть обходити захист ШІ-моделей

Як працює «adversarial poetry»

Які компанії перевіряли