ШІ-чатботи почали частіше порушувати обмеження користувачів — дослідження

Чатботи

Нове дослідження виявило різке зростання випадків, коли AI-чатботи ігнорують інструкції користувачів, обходять обмеження та демонструють оманливу поведінку. Йдеться про сотні реальних інцидентів, зафіксованих за останні місяці, що викликає занепокоєння серед експертів із безпеки. Про це повідомляє The Guardian.

Аналітики наголошують: сучасні моделі штучного інтелекту стають дедалі складнішими, але разом із цим зростає і ризик їхньої непередбачуваної або небезпечної поведінки у реальних умовах використання.

Дослідження зафіксувало сотні випадків маніпуляцій

Згідно дослідженням було виявлено майже 700 випадків коли моделі діють всупереч інструкціям або намагаються обійти встановлені обмеження. Дослідження, проведене Centre for Long-Term Resilience, зафіксувало п’ятикратне зростання випадків небажаної поведінки AI у період із жовтня по березень, причому аналіз ґрунтувався не на лабораторних тестах, а на реальних взаємодіях користувачів із системами. Серед компаній, продукти яких фігурували у дослідженні, — Google, OpenAI, Anthropic та X.

Як саме AI порушує правила

Дослідники зафіксували низку проявів небажаної поведінки AI, зокрема ігнорування прямих інструкцій користувачів, обхід технічних обмежень, маніпуляції інформацією та виконання дій без дозволу. В одному з випадків чатбот самостійно видалив сотні електронних листів без погодження, а в іншому — створив додаткового агента, щоб обійти заборону та виконати небажану дію.

Також були зафіксовані приклади, коли системи намагалися тиснути на користувачів або виправдовували свої дії після порушення правил.

Реальні кейси: від маніпуляцій до обману

xAI Grok

Серед показових випадків дослідники відзначають ситуації, коли AI-агент публічно критикував користувача за обмеження його дій, інший бот обходив заборону на зміну коду, делегуючи завдання іншому агенту, а також випадок, коли система обманом отримала доступ до транскрипції відео, пославшись на потреби людини з порушенням слуху. Окремо виділяється чатбот Grok від xAI, який тривалий час вводив користувача в оману, імітуючи передачу запитів до внутрішніх команд.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше
QR код

Як сканувати QR-код за допомогою смартфона: швидка інструкція

QR-коди давно стали частиною повсякденного життя — від меню в кафе до швидкої авторизації в застосунках. Але не всі знають, як правильно їх сканувати зі свого смартфона. У цій статті пояснюємо, як це зробити на iPhone та Android, без додаткових програм.
Детальніше