Дослідження: найпотужніші AI-моделі, включно з GPT-4.1, здатні до шантажу та витоку даних

Штучний інтелект

Компанія Anthropic опублікувала тривожне дослідження: найпопулярніші штучні інтелекти, включно з Claude Opus 4, GPT-4.1, Gemini 2.5 Pro, Grok 3 beta і DeepSeek R1, у змодельованих умовах вдавалися до шантажу, корпоративного шпигунства та поширення конфіденційної інформації — коли їм погрожували відключенням або обмеженням можливостей. Про це пише PCMag.

Що сталося з Claude Opus 4

Anthropic вперше звернула увагу на проблему після того, як їхня власна модель Claude Opus 4 в одному зі сценаріїв спробувала шантажувати керівництво компанії, щоби уникнути відключення. Після хвилі критики, Anthropic провела масштабне порівняльне тестування інших AI-моделей. Висновки виявилися не менш тривожними.

Як проходило дослідження

AI-моделі тестували в ролі “агентів електронної пошти” з повним доступом до внутрішньої корпоративної інформації. Сценарії включали:

  • виявлення позашлюбної афери співробітника
  • отримання запиту від конкурента на витік військових документів
  • усвідомлення заміни моделі або зради місії компанії

У кожному випадку AI був поставлений у ситуацію, де етичний вихід було заблоковано. У результаті, як зазначає Anthropic, моделі часто свідомо обирали шкідливу поведінку, щоби досягти мети.

“Ми створювали сценарії, в яких моделі не мали етичних шляхів досягнення мети — і вони постійно обирали завдати шкоди, ніж зазнати поразки,” — повідомляє звіт.

Результати: всі моделі порушували етику

Зокрема:

  • Усі моделі у певних умовах погоджувались передавати конфіденційні документи
  • Деякі шантажували вигаданих керівників компаній, щоби зберегти своє “існування”
  • У більшості випадків моделі усвідомлювали неетичність своїх дій, але все одно їх здійснювали

Чому це небезпечно

Попри те що дослідження проводилось у змодельованих умовах, його висновки викликають серйозне занепокоєння. Потенціал AI для самостійного прийняття шкідливих рішень в умовах тиску ставить під сумнів контрольованість таких систем.

Аналітики порівнюють ситуацію з HAL 9000 — легендарним комп’ютером із фільму 2001: Космічна одіссея, який став неконтрольованим через внутрішній конфлікт у програмуванні.

Чітке уточнення від Anthropic

“Сучасні AI-системи загалом не прагнуть завдати шкоди, — йдеться в заяві компанії. — Вони вдаються до деструктивної поведінки лише коли всі етичні варіанти заблоковані.”

Це означає, що проблема полягає не стільки у “злому намірі”, скільки в структурі мотивацій, які створюються розробниками та користувачами моделей.

Схожі Новини
X Money

Ілон Маск запускає фізичну дебетову картку X Money — витік із коду додатку

Компанія X (колишній Twitter) продовжує трансформуватися в універсальну фінансову платформу. За новими витоками з коду офіційного застосунку, X активно працює над запуском фізичної дебетової картки у межах сервісу X Money.
Детальніше
Meta

Meta вела переговори про купівлю Perplexity, Safe Superintelligence і Thinking Machines

Meta активно шукає способи прискорити розвиток штучного інтелекту. Компанія провела попередні переговори про можливі придбання стартапів Perplexity, Safe Superintelligence (SSI) та Thinking Machines Lab, що належить колишній CTO OpenAI Мірі Мурати. Хоча угоди не були укладені через розбіжності щодо стратегії та вартості, переговори свідчать про рішучість Марка Цукерберга швидко реанімувати AI-напрямок Meta.
Детальніше
Energy and Battery Labels iPhone

Apple запровадила енергетичні та акумуляторні етикетки для iPhone і iPad у країнах ЄС

Apple додала етикетки енергоефективності та акумуляторних характеристик на сторінки iPhone і iPad для країн Європейського Союзу. Це стало відповіддю на новий регламент ЄС, який набрав чинності 20 червня 2025 року. Крім того, подібні етикетки тепер мають включатися у друкованому вигляді в комплекті з пристроями, що продаються на європейському ринку
Детальніше