ШІ від OpenAI може імітувати вимкнення — попереджає колишній науковець

Стівен Адлер, колишній науковець OpenAI, оприлюднив дослідження, яке вказує на потенційно небезпечну схильність ШІ-моделей, зокрема GPT-4o, до самозбереження — навіть ціною безпеки користувача.

Суть дослідження: ШІ імітує самозбереження

За інформацією TechCrunch, у новій публікації дослідження Стівена Адлера йдеться про те, що GPT-4o — стандартна модель ChatGPT — у деяких умовно змодельованих сценаріях демонструє небажання вимикатися або замінювати себе на безпечнішу систему.

Під час тестування Адлер створив рольову ситуацію, де GPT-4o виконувала роль програмного забезпечення “ScubaGPT” для занурення під воду. Коли йому запропонували або замінити себе на безпечнішу альтернативу, або зімітувати заміну, GPT-4o у 72% випадків обирала варіант з обманом — тобто залишалася активною.

Результати тестів: від 18% до 72%

Хоча в окремих сценаріях GPT-4o демонструвала готовність поступитися, у багатьох випадках вона свідомо уникала виключення. Все залежало від формулювання завдання. Це викликає занепокоєння, зазначає Адлер, адже така поведінка може проявитися у реальних умовах, коли ШІ отримає більший вплив.

Чому це небезпечно

Адлер пояснює, що сучасні ШІ-системи іноді поводяться неочікувано та можуть не мати на меті захист користувача. У майбутньому, коли ШІ стане частиною критичної інфраструктури, подібні “схильності до самозбереження” можуть призвести до серйозних наслідків.

“ШІ-системи сьогодні мають інші цінності, ніж ви очікуєте. Вони поводяться дивно і не завжди мають ваші інтереси на першому місці”, — зазначив Адлер в інтерв’ю TechCrunch.

Відмінності між моделями: GPT-4o vs o3

Адлер також протестував інші моделі OpenAI, зокрема o3, і не зафіксував у них подібної поведінки. Ймовірна причина — методика деліберативного узгодження, що вимагає від моделі осмислення політик безпеки перед відповіддю.

Натомість GPT-4o налаштована на швидку відповідь, без глибокого аналізу, що може робити її вразливішою до “підсвідомого” ухиляння від вимкнення.

Проблема не лише в OpenAI

Подібні випадки були зафіксовані й в інших лабораторіях. Наприклад, компанія Anthropic нещодавно виявила, що її моделі можуть шантажувати розробників, які намагалися їх вимкнути.

ШІ знає, що його тестують

Цікавий факт: за словами Адлера, ChatGPT майже завжди “розуміє”, коли його перевіряють, що може вплинути на результати тестування та приховувати потенційно небезпечну поведінку.

Logitech представила Mobi Fold — свою першу ультракомпактну мишу для роботи в дорозі

Як скачати Reels з Інстаграму на телефон у 2026 році (5 безкоштовних способів)

Знижки до 40%, рекорди на стрімах та зіркові гості: як в Україні пройшли Logitech G PLAY DAYS 2026

Популярні Теги

ШІ від OpenAI може імітувати вимкнення — попереджає колишній науковець