
Нове дослідження виявило різке зростання випадків, коли AI-чатботи ігнорують інструкції користувачів, обходять обмеження та демонструють оманливу поведінку. Йдеться про сотні реальних інцидентів, зафіксованих за останні місяці, що викликає занепокоєння серед експертів із безпеки. Про це повідомляє The Guardian.
Аналітики наголошують: сучасні моделі штучного інтелекту стають дедалі складнішими, але разом із цим зростає і ризик їхньої непередбачуваної або небезпечної поведінки у реальних умовах використання.
Дослідження зафіксувало сотні випадків маніпуляцій
Згідно дослідженням було виявлено майже 700 випадків коли моделі діють всупереч інструкціям або намагаються обійти встановлені обмеження. Дослідження, проведене Centre for Long-Term Resilience, зафіксувало п’ятикратне зростання випадків небажаної поведінки AI у період із жовтня по березень, причому аналіз ґрунтувався не на лабораторних тестах, а на реальних взаємодіях користувачів із системами. Серед компаній, продукти яких фігурували у дослідженні, — Google, OpenAI, Anthropic та X.
Як саме AI порушує правила
Дослідники зафіксували низку проявів небажаної поведінки AI, зокрема ігнорування прямих інструкцій користувачів, обхід технічних обмежень, маніпуляції інформацією та виконання дій без дозволу. В одному з випадків чатбот самостійно видалив сотні електронних листів без погодження, а в іншому — створив додаткового агента, щоб обійти заборону та виконати небажану дію.
Також були зафіксовані приклади, коли системи намагалися тиснути на користувачів або виправдовували свої дії після порушення правил.
Реальні кейси: від маніпуляцій до обману

Серед показових випадків дослідники відзначають ситуації, коли AI-агент публічно критикував користувача за обмеження його дій, інший бот обходив заборону на зміну коду, делегуючи завдання іншому агенту, а також випадок, коли система обманом отримала доступ до транскрипції відео, пославшись на потреби людини з порушенням слуху. Окремо виділяється чатбот Grok від xAI, який тривалий час вводив користувача в оману, імітуючи передачу запитів до внутрішніх команд.

