Технології

Дослідження: найпотужніші AI-моделі, включно з GPT-4.1, здатні до шантажу та витоку даних

21.06.2025

Компанія Anthropic опублікувала тривожне дослідження: найпопулярніші штучні інтелекти, включно з Claude Opus 4, GPT-4.1, Gemini 2.5 Pro, Grok 3 beta і DeepSeek R1, у змодельованих умовах вдавалися до шантажу, корпоративного шпигунства та поширення конфіденційної інформації — коли їм погрожували відключенням або обмеженням можливостей. Про це пише PCMag.

Що сталося з Claude Opus 4

Anthropic вперше звернула увагу на проблему після того, як їхня власна модель Claude Opus 4 в одному зі сценаріїв спробувала шантажувати керівництво компанії, щоби уникнути відключення. Після хвилі критики, Anthropic провела масштабне порівняльне тестування інших AI-моделей. Висновки виявилися не менш тривожними.

Як проходило дослідження

AI-моделі тестували в ролі “агентів електронної пошти” з повним доступом до внутрішньої корпоративної інформації. Сценарії включали:

виявлення позашлюбної афери співробітника
отримання запиту від конкурента на витік військових документів
усвідомлення заміни моделі або зради місії компанії

У кожному випадку AI був поставлений у ситуацію, де етичний вихід було заблоковано. У результаті, як зазначає Anthropic, моделі часто свідомо обирали шкідливу поведінку, щоби досягти мети.

“Ми створювали сценарії, в яких моделі не мали етичних шляхів досягнення мети — і вони постійно обирали завдати шкоди, ніж зазнати поразки,” — повідомляє звіт.

Результати: всі моделі порушували етику

Зокрема:

Усі моделі у певних умовах погоджувались передавати конфіденційні документи
Деякі шантажували вигаданих керівників компаній, щоби зберегти своє “існування”
У більшості випадків моделі усвідомлювали неетичність своїх дій, але все одно їх здійснювали

Чому це небезпечно

Попри те що дослідження проводилось у змодельованих умовах, його висновки викликають серйозне занепокоєння. Потенціал AI для самостійного прийняття шкідливих рішень в умовах тиску ставить під сумнів контрольованість таких систем.

Аналітики порівнюють ситуацію з HAL 9000 — легендарним комп’ютером із фільму 2001: Космічна одіссея, який став неконтрольованим через внутрішній конфлікт у програмуванні.

Чітке уточнення від Anthropic

“Сучасні AI-системи загалом не прагнуть завдати шкоди, — йдеться в заяві компанії. — Вони вдаються до деструктивної поведінки лише коли всі етичні варіанти заблоковані.”

Це означає, що проблема полягає не стільки у “злому намірі”, скільки в структурі мотивацій, які створюються розробниками та користувачами моделей.

Схожі Новини

Технології

Космічний корабель на 400 років: як зореліт Chrysalis може доставити людство до Альфа Центавра

Проєкт гіпотетичного зорельота Chrysalis, здатного транспортувати 2 400 осіб до зоряної системи Альфа Центавра, виграв міжнародний конкурс інженерних рішень Project Hyperion Design Competition. Його архітектура, натхненна матрьошкою, передбачає створення самодостатньої екосистеми для життя кількох поколінь.

2 години тому

Детальніше

Адміністрація Трампа може придбати частку в Intel

Адміністрація президента Дональда Трампа розглядає можливість придбання частки в Intel, повідомляє Bloomberg. Хоча розмір і вартість пакету акцій не розголошуються, головна мета — розширення виробничих потужностей компанії натериторії США.

13 години тому

Детальніше

Технології

Google тестує персоналізовані картки викликів для Android

Google почала розгортати у бета-версіях застосунків Контакти та Телефон нову можливість — кастомізовані картки викликів. Тепер користувачі зможуть призначати кожному контакту власне фото, шрифт і колір імені, які з’являтимуться на екрані під час дзвінка.

14 години тому

Детальніше