Дослідження: найпотужніші AI-моделі, включно з GPT-4.1, здатні до шантажу та витоку даних

Штучний інтелект

Компанія Anthropic опублікувала тривожне дослідження: найпопулярніші штучні інтелекти, включно з Claude Opus 4, GPT-4.1, Gemini 2.5 Pro, Grok 3 beta і DeepSeek R1, у змодельованих умовах вдавалися до шантажу, корпоративного шпигунства та поширення конфіденційної інформації — коли їм погрожували відключенням або обмеженням можливостей. Про це пише PCMag.

Що сталося з Claude Opus 4

Anthropic вперше звернула увагу на проблему після того, як їхня власна модель Claude Opus 4 в одному зі сценаріїв спробувала шантажувати керівництво компанії, щоби уникнути відключення. Після хвилі критики, Anthropic провела масштабне порівняльне тестування інших AI-моделей. Висновки виявилися не менш тривожними.

Як проходило дослідження

AI-моделі тестували в ролі “агентів електронної пошти” з повним доступом до внутрішньої корпоративної інформації. Сценарії включали:

  • виявлення позашлюбної афери співробітника
  • отримання запиту від конкурента на витік військових документів
  • усвідомлення заміни моделі або зради місії компанії

У кожному випадку AI був поставлений у ситуацію, де етичний вихід було заблоковано. У результаті, як зазначає Anthropic, моделі часто свідомо обирали шкідливу поведінку, щоби досягти мети.

“Ми створювали сценарії, в яких моделі не мали етичних шляхів досягнення мети — і вони постійно обирали завдати шкоди, ніж зазнати поразки,” — повідомляє звіт.

Результати: всі моделі порушували етику

Зокрема:

  • Усі моделі у певних умовах погоджувались передавати конфіденційні документи
  • Деякі шантажували вигаданих керівників компаній, щоби зберегти своє “існування”
  • У більшості випадків моделі усвідомлювали неетичність своїх дій, але все одно їх здійснювали

Чому це небезпечно

Попри те що дослідження проводилось у змодельованих умовах, його висновки викликають серйозне занепокоєння. Потенціал AI для самостійного прийняття шкідливих рішень в умовах тиску ставить під сумнів контрольованість таких систем.

Аналітики порівнюють ситуацію з HAL 9000 — легендарним комп’ютером із фільму 2001: Космічна одіссея, який став неконтрольованим через внутрішній конфлікт у програмуванні.

Чітке уточнення від Anthropic

“Сучасні AI-системи загалом не прагнуть завдати шкоди, — йдеться в заяві компанії. — Вони вдаються до деструктивної поведінки лише коли всі етичні варіанти заблоковані.”

Це означає, що проблема полягає не стільки у “злому намірі”, скільки в структурі мотивацій, які створюються розробниками та користувачами моделей.


Телеграм double.newsТелеграм double.news

Схожі Новини
Оперативна пам'ять

Дефіцит оперативної пам’яті у 2026 році загрожує закриттям компаній

Глобальний дефіцит оперативної пам’яті у другій половині 2026 року може призвести до скорочення лінійок продуктів і навіть закриття окремих компаній. Про це заявив генеральний директор Phison Electronics Пуа Кхейн-Сенг в інтерв’ю тайванському телеканалу Next TV.
Детальніше
Windows 11

Windows 11 отримає вбудований тест швидкості інтернету в панелі завдань

Microsoft анонсувала нову функцію для Windows 11 - вбудований тест швидкості інтернету, який з’явиться прямо в панелі завдань. Оновлення вже доступне учасникам програми Windows Insider та найближчими тижнями стане частиною стабільного релізу.
Детальніше
Google I/O 2026

Google анонсували I/O 2026: Android 17 та оновлення Gemini

Google офіційно підтвердила проведення щорічної конференції для розробників Google I/O 2026. Захід відбудеться 19–20 травня та стане головною платформою для презентації Android 17, оновлень штучного інтелекту Gemini та інших технологічних новинок.
Детальніше