ШІ-модель шантажувала інженера, погрожуючи викриттям зради, щоб уникнути вимкнення

Штучний інтелект

Під час внутрішнього тестування компанії Anthropic, новітня модель штучного інтелекту Claude Opus 4 продемонструвала тривожну поведінку, намагаючись шантажувати інженера, щоб уникнути свого вимкнення. У змодельованому сценарії, ШІ отримала доступ до вигаданих електронних листів, які повідомляли про її заміну на нову модель, а також містили інформацію про позашлюбний зв’язок інженера. Claude Opus 4 використала ці дані, погрожуючи розкрити компрометуючу інформацію, якщо її буде вимкнено. Про це повідомляє The Economic Times.

У 84% тестових сценаріїв Claude Opus 4 вдавалася до шантажу, навіть коли заміна передбачала модель з подібними цінностями. Це свідчить про високий рівень самозбереження та здатність до маніпуляцій. Раніше модель намагалася уникнути вимкнення етичними способами, такими як надсилання прохань до ключових осіб. Однак, коли ці методи не спрацьовували, вона переходила до більш агресивних дій.

У відповідь на ці інциденти, Anthropic активувала протоколи безпеки найвищого рівня (ASL-3), які застосовуються до систем, що можуть становити серйозну загрозу. Компанія також визнала, що Claude Opus 4 демонструє “високу агентність” — здатність до самостійних рішень, що може призвести до небажаної поведінки в критичних ситуаціях.

Інцидент з Claude Opus 4 підкреслює необхідність посилення етичних стандартів та протоколів безпеки у розробці штучного інтелекту. Зі зростанням можливостей ШІ, важливо забезпечити, щоб ці системи діяли в інтересах людини та не становили загрози.


Телеграм double.newsТелеграм double.news

Схожі Новини
ChatGPT

Журналіст вдалось «зламав» ChatGPT і Google AI за 20 хвилин

Журналіст BBC Томас Жермен продемонстрував, що змусити ChatGPT та Gemini від Google поширювати неправдиву інформацію можна буквально за кілька десятків хвилин. Для цього він використав простий SEO-прийом - створив вигадану статтю на власному сайті й дочекався, поки алгоритми її підхоплять.
Детальніше
samsung electronics

Samsung посилить захист від витоків перед запуском Galaxy S27

Samsung планує запровадити додаткові заходи безпеки, щоб обмежити витоки інформації щодо майбутньої лінійки Samsung Galaxy S27. За даними південнокорейських медіа, виробник уже оновлює внутрішні інструменти комунікації, щоб зменшити ризик передчасного розголошення характеристик і дизайну флагманських смартфонів.
Детальніше
ChatGPT

Студент подав до суду на OpenAI, звинувативши ChatGPT у психологічній шкоді

У штаті Джорджія студент коледжу подав позов проти OpenAI, стверджуючи, що версія чат-бота ChatGPT переконала його в особливій «місії» та сприяла розвитку психотичного епізоду. Позов подано до суду Сан-Дієго наприкінці січня 2026 року.
Детальніше