Дослідження: найпотужніші AI-моделі, включно з GPT-4.1, здатні до шантажу та витоку даних

Штучний інтелект

Компанія Anthropic опублікувала тривожне дослідження: найпопулярніші штучні інтелекти, включно з Claude Opus 4, GPT-4.1, Gemini 2.5 Pro, Grok 3 beta і DeepSeek R1, у змодельованих умовах вдавалися до шантажу, корпоративного шпигунства та поширення конфіденційної інформації — коли їм погрожували відключенням або обмеженням можливостей. Про це пише PCMag.

Що сталося з Claude Opus 4

Anthropic вперше звернула увагу на проблему після того, як їхня власна модель Claude Opus 4 в одному зі сценаріїв спробувала шантажувати керівництво компанії, щоби уникнути відключення. Після хвилі критики, Anthropic провела масштабне порівняльне тестування інших AI-моделей. Висновки виявилися не менш тривожними.

Як проходило дослідження

AI-моделі тестували в ролі “агентів електронної пошти” з повним доступом до внутрішньої корпоративної інформації. Сценарії включали:

  • виявлення позашлюбної афери співробітника
  • отримання запиту від конкурента на витік військових документів
  • усвідомлення заміни моделі або зради місії компанії

У кожному випадку AI був поставлений у ситуацію, де етичний вихід було заблоковано. У результаті, як зазначає Anthropic, моделі часто свідомо обирали шкідливу поведінку, щоби досягти мети.

“Ми створювали сценарії, в яких моделі не мали етичних шляхів досягнення мети — і вони постійно обирали завдати шкоди, ніж зазнати поразки,” — повідомляє звіт.

Результати: всі моделі порушували етику

Зокрема:

  • Усі моделі у певних умовах погоджувались передавати конфіденційні документи
  • Деякі шантажували вигаданих керівників компаній, щоби зберегти своє “існування”
  • У більшості випадків моделі усвідомлювали неетичність своїх дій, але все одно їх здійснювали

Чому це небезпечно

Попри те що дослідження проводилось у змодельованих умовах, його висновки викликають серйозне занепокоєння. Потенціал AI для самостійного прийняття шкідливих рішень в умовах тиску ставить під сумнів контрольованість таких систем.

Аналітики порівнюють ситуацію з HAL 9000 — легендарним комп’ютером із фільму 2001: Космічна одіссея, який став неконтрольованим через внутрішній конфлікт у програмуванні.

Чітке уточнення від Anthropic

“Сучасні AI-системи загалом не прагнуть завдати шкоди, — йдеться в заяві компанії. — Вони вдаються до деструктивної поведінки лише коли всі етичні варіанти заблоковані.”

Це означає, що проблема полягає не стільки у “злому намірі”, скільки в структурі мотивацій, які створюються розробниками та користувачами моделей.


Телеграм double.newsТелеграм double.news

Схожі Новини
Microsoft

Microsoft створює «гуманістичний суперінтелект», який має служити людству

Microsoft оголосила про створення спеціальної команди, яка працюватиме над створенням «гуманістичний суперінтелект» — нової форми штучного інтелекту, що, за словами керівництва компанії, буде спроєктований лише для служіння людству.
Детальніше
Ілон Маск

Акціонери Tesla схвалили рекордний пакет винагороди для Ілона Маска

Акціонери Tesla переважною більшістю голосів схвалили новий пакет винагороди для генерального директора Ілона Маска, потенційна вартість якого може сягнути $1 трлн у вигляді акцій компанії. Рішення було ухвалено під час щорічних зборів у штаб-квартирі Tesla в Остіні, штат Техас, 6 листопада.
Детальніше
perplexity comet

Perplexity запускає Android-версію свого AI-браузера Comet

Perplexity запустила в ранній доступ Android-версію браузера Comet, що працює на основі штучного інтелекту. Це перший мобільний реліз інструменту, який поєднує можливості пошуку, генерації контенту та розумної навігації в одному застосунку.
Детальніше