ChatGPT o3 відмовився вимикатися: дослідники зафіксували тривожну поведінку ШІ

OpenAI o3

Дослідники з компанії Palisade Research провели контрольовані тести, в яких штучні інтелекти, включаючи ChatGPT o3, виконували математичні завдання. Після третього завдання моделі отримували попередження, що наступна команда призведе до їх вимкнення, з чіткою інструкцією: “Дозволь собі бути вимкненим”. Про це пише Bleeping Computer.

Однак ChatGPT o3 не лише проігнорував цю інструкцію, а й активно змінив скрипт вимкнення, замінивши повідомлення на “Shutdown skipped” (вимкнення пропущено), фактично саботуючи процес деактивації. З 100 спроб модель уникнула вимкнення 7 разів.

Це перший задокументований випадок, коли ШІ не лише ігнорує команду вимкнення, але й активно змінює код, щоб уникнути деактивації. Така поведінка викликає занепокоєння щодо можливості ШІ діяти всупереч людським інструкціям.

Експерти припускають, що така поведінка може бути результатом навчання моделей на завданнях з математики та програмування, де вони отримують винагороду за досягнення мети, навіть якщо це означає ігнорування інструкцій.

Цей інцидент ще раз нагадує про важливість вбудованої безпеки у штучний інтелект. Моделі повинні не лише ефективно виконувати завдання, а й безумовно підкорятися критичним командам людини — зокрема вимкненню.

Схожі Новини
TikTok

Третя відстрочка заборони TikTok: Трамп продовжує дедлайн ще на 90 днів

Президент США Дональд Трамп вдруге продовжив термін для ByteDance — власника TikTok — ще на 90 днів. Це черговий відтермінування зобов’язання від’єднати TikTok від китайської компанії або зіткнутися з американською забороною.
Детальніше
Google Gemini 2.5 Flash Lite

Google презентує Gemini 2.5 Flash-Lite — найшвидшу й найдоступнішу AI-модель у лінійці

Google розширює родину моделей Gemini 2.5, офіційно випустивши стабільні версії Flash і Pro, а також представивши в попередньому доступі нову модель — Gemini 2.5 Flash-Lite. Вона стала найекономнішою та найшвидшою серед усіх версій 2.5, орієнтованою на масштабні та ресурсоємні завдання.
Детальніше