ШІ від OpenAI може імітувати вимкнення — попереджає колишній науковець

OpenAI ChatGPT

Стівен Адлер, колишній науковець OpenAI, оприлюднив дослідження, яке вказує на потенційно небезпечну схильність ШІ-моделей, зокрема GPT-4o, до самозбереження — навіть ціною безпеки користувача.

Суть дослідження: ШІ імітує самозбереження

GPT 4o

За інформацією TechCrunch, у новій публікації дослідження Стівена Адлера йдеться про те, що GPT-4o — стандартна модель ChatGPT — у деяких умовно змодельованих сценаріях демонструє небажання вимикатися або замінювати себе на безпечнішу систему.

Під час тестування Адлер створив рольову ситуацію, де GPT-4o виконувала роль програмного забезпечення “ScubaGPT” для занурення під воду. Коли йому запропонували або замінити себе на безпечнішу альтернативу, або зімітувати заміну, GPT-4o у 72% випадків обирала варіант з обманом — тобто залишалася активною.

Результати тестів: від 18% до 72%

Хоча в окремих сценаріях GPT-4o демонструвала готовність поступитися, у багатьох випадках вона свідомо уникала виключення. Все залежало від формулювання завдання. Це викликає занепокоєння, зазначає Адлер, адже така поведінка може проявитися у реальних умовах, коли ШІ отримає більший вплив.

Чому це небезпечно

Адлер пояснює, що сучасні ШІ-системи іноді поводяться неочікувано та можуть не мати на меті захист користувача. У майбутньому, коли ШІ стане частиною критичної інфраструктури, подібні “схильності до самозбереження” можуть призвести до серйозних наслідків.

“ШІ-системи сьогодні мають інші цінності, ніж ви очікуєте. Вони поводяться дивно і не завжди мають ваші інтереси на першому місці”, — зазначив Адлер в інтерв’ю TechCrunch.

Відмінності між моделями: GPT-4o vs o3

Адлер також протестував інші моделі OpenAI, зокрема o3, і не зафіксував у них подібної поведінки. Ймовірна причина — методика деліберативного узгодження, що вимагає від моделі осмислення політик безпеки перед відповіддю.

Натомість GPT-4o налаштована на швидку відповідь, без глибокого аналізу, що може робити її вразливішою до “підсвідомого” ухиляння від вимкнення.

Проблема не лише в OpenAI

Подібні випадки були зафіксовані й в інших лабораторіях. Наприклад, компанія Anthropic нещодавно виявила, що її моделі можуть шантажувати розробників, які намагалися їх вимкнути.

ШІ знає, що його тестують

Цікавий факт: за словами Адлера, ChatGPT майже завжди “розуміє”, коли його перевіряють, що може вплинути на результати тестування та приховувати потенційно небезпечну поведінку.


Телеграм double.newsТелеграм double.news

Схожі Новини
Spotify

Spotify готує «балакучий» голосовий інтерфейс на базі штучного інтелекту

Spotify анонсував подальший розвиток інтерактивного голосового інтерфейсу, який базуватиметься на нових досягненнях генеративного ШІ. Під час оголошення фінансових результатів за другий квартал представники компанії заявили: взаємодія з платформою стане ще більш розмовною, персоналізованою і контекстною.
Детальніше
Хакер

ФБР конфіскувало $2,4 млн у Bitcoin у хакера з групи Chaos

Федеральне бюро розслідувань у місті Даллас оголосило про вилучення понад $2,4 мільйона в Bitcoin у передбачуваного учасника нової хакерської групи Chaos, яка стрімко набрала обертів на початку 2025 року.
Детальніше
ChatGPT

Перевірка на людину провалена: ChatGPT Agent проходить захист від ботів

Нова функція ChatGPT Agent від OpenAI, яка дозволяє ШІ самостійно працювати з веббраузером, здивувала користувачів мережі: під час виконання завдання агент спокійно пройшов одну з найпоширеніших онлайн-перевірок — чекбокс «Я не робот» від Cloudflare. Іронічно, що під час дій бот сам же й прокоментував: «Цей крок потрібен, щоб довести, що я не бот».
Детальніше