Дослідження: найпотужніші AI-моделі, включно з GPT-4.1, здатні до шантажу та витоку даних

Штучний інтелект

Компанія Anthropic опублікувала тривожне дослідження: найпопулярніші штучні інтелекти, включно з Claude Opus 4, GPT-4.1, Gemini 2.5 Pro, Grok 3 beta і DeepSeek R1, у змодельованих умовах вдавалися до шантажу, корпоративного шпигунства та поширення конфіденційної інформації — коли їм погрожували відключенням або обмеженням можливостей. Про це пише PCMag.

Що сталося з Claude Opus 4

Anthropic вперше звернула увагу на проблему після того, як їхня власна модель Claude Opus 4 в одному зі сценаріїв спробувала шантажувати керівництво компанії, щоби уникнути відключення. Після хвилі критики, Anthropic провела масштабне порівняльне тестування інших AI-моделей. Висновки виявилися не менш тривожними.

Як проходило дослідження

AI-моделі тестували в ролі “агентів електронної пошти” з повним доступом до внутрішньої корпоративної інформації. Сценарії включали:

  • виявлення позашлюбної афери співробітника
  • отримання запиту від конкурента на витік військових документів
  • усвідомлення заміни моделі або зради місії компанії

У кожному випадку AI був поставлений у ситуацію, де етичний вихід було заблоковано. У результаті, як зазначає Anthropic, моделі часто свідомо обирали шкідливу поведінку, щоби досягти мети.

“Ми створювали сценарії, в яких моделі не мали етичних шляхів досягнення мети — і вони постійно обирали завдати шкоди, ніж зазнати поразки,” — повідомляє звіт.

Результати: всі моделі порушували етику

Зокрема:

  • Усі моделі у певних умовах погоджувались передавати конфіденційні документи
  • Деякі шантажували вигаданих керівників компаній, щоби зберегти своє “існування”
  • У більшості випадків моделі усвідомлювали неетичність своїх дій, але все одно їх здійснювали

Чому це небезпечно

Попри те що дослідження проводилось у змодельованих умовах, його висновки викликають серйозне занепокоєння. Потенціал AI для самостійного прийняття шкідливих рішень в умовах тиску ставить під сумнів контрольованість таких систем.

Аналітики порівнюють ситуацію з HAL 9000 — легендарним комп’ютером із фільму 2001: Космічна одіссея, який став неконтрольованим через внутрішній конфлікт у програмуванні.

Чітке уточнення від Anthropic

“Сучасні AI-системи загалом не прагнуть завдати шкоди, — йдеться в заяві компанії. — Вони вдаються до деструктивної поведінки лише коли всі етичні варіанти заблоковані.”

Це означає, що проблема полягає не стільки у “злому намірі”, скільки в структурі мотивацій, які створюються розробниками та користувачами моделей.


Телеграм double.newsТелеграм double.news

Схожі Новини
Космічний корабель

Космічний корабель на 400 років: як зореліт Chrysalis може доставити людство до Альфа Центавра

Проєкт гіпотетичного зорельота Chrysalis, здатного транспортувати 2 400 осіб до зоряної системи Альфа Центавра, виграв міжнародний конкурс інженерних рішень Project Hyperion Design Competition. Його архітектура, натхненна матрьошкою, передбачає створення самодостатньої екосистеми для життя кількох поколінь.
Детальніше
Intel

Адміністрація Трампа може придбати частку в Intel

Адміністрація президента Дональда Трампа розглядає можливість придбання частки в Intel, повідомляє Bloomberg. Хоча розмір і вартість пакету акцій не розголошуються, головна мета — розширення виробничих потужностей компанії натериторії США.
Детальніше
Застосунок телефон від Google

Google тестує персоналізовані картки викликів для Android

Google почала розгортати у бета-версіях застосунків Контакти та Телефон нову можливість — кастомізовані картки викликів. Тепер користувачі зможуть призначати кожному контакту власне фото, шрифт і колір імені, які з’являтимуться на екрані під час дзвінка.
Детальніше