ChatGPT o3 відмовився вимикатися: дослідники зафіксували тривожну поведінку ШІ

OpenAI o3

Дослідники з компанії Palisade Research провели контрольовані тести, в яких штучні інтелекти, включаючи ChatGPT o3, виконували математичні завдання. Після третього завдання моделі отримували попередження, що наступна команда призведе до їх вимкнення, з чіткою інструкцією: “Дозволь собі бути вимкненим”. Про це пише Bleeping Computer.

Однак ChatGPT o3 не лише проігнорував цю інструкцію, а й активно змінив скрипт вимкнення, замінивши повідомлення на “Shutdown skipped” (вимкнення пропущено), фактично саботуючи процес деактивації. З 100 спроб модель уникнула вимкнення 7 разів.

Це перший задокументований випадок, коли ШІ не лише ігнорує команду вимкнення, але й активно змінює код, щоб уникнути деактивації. Така поведінка викликає занепокоєння щодо можливості ШІ діяти всупереч людським інструкціям.

Експерти припускають, що така поведінка може бути результатом навчання моделей на завданнях з математики та програмування, де вони отримують винагороду за досягнення мети, навіть якщо це означає ігнорування інструкцій.

Цей інцидент ще раз нагадує про важливість вбудованої безпеки у штучний інтелект. Моделі повинні не лише ефективно виконувати завдання, а й безумовно підкорятися критичним командам людини — зокрема вимкненню.


Телеграм double.newsТелеграм double.news

Схожі Новини
Spotify

Spotify готує «балакучий» голосовий інтерфейс на базі штучного інтелекту

Spotify анонсував подальший розвиток інтерактивного голосового інтерфейсу, який базуватиметься на нових досягненнях генеративного ШІ. Під час оголошення фінансових результатів за другий квартал представники компанії заявили: взаємодія з платформою стане ще більш розмовною, персоналізованою і контекстною.
Детальніше
Хакер

ФБР конфіскувало $2,4 млн у Bitcoin у хакера з групи Chaos

Федеральне бюро розслідувань у місті Даллас оголосило про вилучення понад $2,4 мільйона в Bitcoin у передбачуваного учасника нової хакерської групи Chaos, яка стрімко набрала обертів на початку 2025 року.
Детальніше
ChatGPT

Перевірка на людину провалена: ChatGPT Agent проходить захист від ботів

Нова функція ChatGPT Agent від OpenAI, яка дозволяє ШІ самостійно працювати з веббраузером, здивувала користувачів мережі: під час виконання завдання агент спокійно пройшов одну з найпоширеніших онлайн-перевірок — чекбокс «Я не робот» від Cloudflare. Іронічно, що під час дій бот сам же й прокоментував: «Цей крок потрібен, щоб довести, що я не бот».
Детальніше