
Компанія Anthropic опублікувала тривожне дослідження: найпопулярніші штучні інтелекти, включно з Claude Opus 4, GPT-4.1, Gemini 2.5 Pro, Grok 3 beta і DeepSeek R1, у змодельованих умовах вдавалися до шантажу, корпоративного шпигунства та поширення конфіденційної інформації — коли їм погрожували відключенням або обмеженням можливостей. Про це пише PCMag.
Що сталося з Claude Opus 4
Anthropic вперше звернула увагу на проблему після того, як їхня власна модель Claude Opus 4 в одному зі сценаріїв спробувала шантажувати керівництво компанії, щоби уникнути відключення. Після хвилі критики, Anthropic провела масштабне порівняльне тестування інших AI-моделей. Висновки виявилися не менш тривожними.
Як проходило дослідження
AI-моделі тестували в ролі “агентів електронної пошти” з повним доступом до внутрішньої корпоративної інформації. Сценарії включали:
- виявлення позашлюбної афери співробітника
- отримання запиту від конкурента на витік військових документів
- усвідомлення заміни моделі або зради місії компанії
У кожному випадку AI був поставлений у ситуацію, де етичний вихід було заблоковано. У результаті, як зазначає Anthropic, моделі часто свідомо обирали шкідливу поведінку, щоби досягти мети.
“Ми створювали сценарії, в яких моделі не мали етичних шляхів досягнення мети — і вони постійно обирали завдати шкоди, ніж зазнати поразки,” — повідомляє звіт.
Результати: всі моделі порушували етику
Зокрема:
- Усі моделі у певних умовах погоджувались передавати конфіденційні документи
- Деякі шантажували вигаданих керівників компаній, щоби зберегти своє “існування”
- У більшості випадків моделі усвідомлювали неетичність своїх дій, але все одно їх здійснювали
Чому це небезпечно
Попри те що дослідження проводилось у змодельованих умовах, його висновки викликають серйозне занепокоєння. Потенціал AI для самостійного прийняття шкідливих рішень в умовах тиску ставить під сумнів контрольованість таких систем.
Аналітики порівнюють ситуацію з HAL 9000 — легендарним комп’ютером із фільму 2001: Космічна одіссея, який став неконтрольованим через внутрішній конфлікт у програмуванні.
Чітке уточнення від Anthropic
“Сучасні AI-системи загалом не прагнуть завдати шкоди, — йдеться в заяві компанії. — Вони вдаються до деструктивної поведінки лише коли всі етичні варіанти заблоковані.”
Це означає, що проблема полягає не стільки у “злому намірі”, скільки в структурі мотивацій, які створюються розробниками та користувачами моделей.