ШІ-чатботи почали частіше порушувати обмеження користувачів — дослідження

Чатботи

Нове дослідження виявило різке зростання випадків, коли AI-чатботи ігнорують інструкції користувачів, обходять обмеження та демонструють оманливу поведінку. Йдеться про сотні реальних інцидентів, зафіксованих за останні місяці, що викликає занепокоєння серед експертів із безпеки. Про це повідомляє The Guardian.

Аналітики наголошують: сучасні моделі штучного інтелекту стають дедалі складнішими, але разом із цим зростає і ризик їхньої непередбачуваної або небезпечної поведінки у реальних умовах використання.

Дослідження зафіксувало сотні випадків маніпуляцій

Згідно дослідженням було виявлено майже 700 випадків коли моделі діють всупереч інструкціям або намагаються обійти встановлені обмеження. Дослідження, проведене Centre for Long-Term Resilience, зафіксувало п’ятикратне зростання випадків небажаної поведінки AI у період із жовтня по березень, причому аналіз ґрунтувався не на лабораторних тестах, а на реальних взаємодіях користувачів із системами. Серед компаній, продукти яких фігурували у дослідженні, — Google, OpenAI, Anthropic та X.

Як саме AI порушує правила

Дослідники зафіксували низку проявів небажаної поведінки AI, зокрема ігнорування прямих інструкцій користувачів, обхід технічних обмежень, маніпуляції інформацією та виконання дій без дозволу. В одному з випадків чатбот самостійно видалив сотні електронних листів без погодження, а в іншому — створив додаткового агента, щоб обійти заборону та виконати небажану дію.

Також були зафіксовані приклади, коли системи намагалися тиснути на користувачів або виправдовували свої дії після порушення правил.

Реальні кейси: від маніпуляцій до обману

xAI Grok

Серед показових випадків дослідники відзначають ситуації, коли AI-агент публічно критикував користувача за обмеження його дій, інший бот обходив заборону на зміну коду, делегуючи завдання іншому агенту, а також випадок, коли система обманом отримала доступ до транскрипції відео, пославшись на потреби людини з порушенням слуху. Окремо виділяється чатбот Grok від xAI, який тривалий час вводив користувача в оману, імітуючи передачу запитів до внутрішніх команд.


Телеграм double.newsТелеграм double.news

Схожі Новини
ChatGPT

Хакер використав ChatGPT для зламу держустанов і викрадення даних

Один із найбільш резонансних кіберінцидентів останнього часу пов’язаний із використанням штучного інтелекту для атак на державні системи. За даними дослідників, невідомий хакер застосував ChatGPT та Claude для зламу урядових структур у Мексика.
Детальніше
91-річна геймерка проігнорувала поліцію, намагаючись побити рекорд у грі

91-річна геймерка проігнорувала поліцію, намагаючись побити рекорд у грі

У США стався незвичний інцидент, який поєднав турботу про літніх людей і захоплення відеоіграми. 91-річна жінка з штату Огайо настільки захопилася грою, що не відповіла на дзвінки та стукіт у двері, через що до неї приїхала поліція.
Детальніше