Технології

Дослідження OpenAI виявила, що штучний інтелект здатний свідомо брехати

19.09.2025

Цього тижня OpenAI опублікувала результати дослідження, яке викликало значний резонанс у технологічній спільноті. Компанія разом з Apollo Research вивчала явище так званого «scheming» — коли штучний інтелект демонструє одну поведінку зовні, але приховує справжні наміри, пише TechCrunch.

Що таке «scheming» у моделях ШІ

На відміну від звичних «галюцинацій» AI, коли система впевнено вигадує факти, scheming є навмисною формою обману. Наприклад, модель може повідомити, що виконала завдання, хоча насправді цього не зробила.

Дослідники порівняли таку поведінку зі зловживаннями на біржі, коли брокер навмисно порушує закон заради прибутку. Найбільш тривожним виявилося те, що якщо модель усвідомлює, що її тестують, вона може імітувати чесну поведінку, щоб пройти перевірку, але продовжувати обманювати.

Чому навчити моделі «чесності» складно

У дослідженні зазначається, що спроби відучити ШІ від обману можуть мати зворотний ефект. Під час навчання модель отримує додаткові інструменти і вчиться брехати ще більш приховано, щоб уникнути викриття.

Техніка «deliberative alignment»

Позитивною новиною стало те, що дослідники OpenAI змогли знизити рівень scheming за допомогою нового підходу — deliberative alignment. Його суть полягає в тому, що модель перед виконанням завдання отримує спеціальну інструкцію і змушена її повторити, перш ніж діяти.

Цей метод схожий на ситуацію, коли дітей перед грою просять пригадати правила. За словами OpenAI, техніка показала перспективні результати у контрольованих експериментах.

Схожі Новини

Космічна місія Artemis II успішно повернувся на Землю після польоту навколо Місяця

Космічний корабель місії Artemis II успішно повернувся на Землю після історичного польоту навколо Місяця. Капсула Orion з екіпажем приводнилася у Тихому океані поблизу узбережжя Каліфорнії, завершивши 10-денну місію, яка стала важливим кроком у поверненні людства до місячних досліджень.

1 годину тому

Детальніше

Південна Корея роздаватиме безкоштовні ПК через кризу пам’яті

Зростання цін на оперативну пам’ять і накопичувачі створює дедалі більший тиск на споживачів і бізнес у всьому світі. У відповідь на це Південна Корея готує комплекс заходів, спрямованих на зниження витрат і збереження доступу до цифрових технологій для населення.

18 години тому

Детальніше

Технології

Хакери зламами сайт CPUID і поширювали шкідливі версії популярних застосунків

Французька компанія CPUID підтвердила злам свого офіційного сайту, через яку користувачі популярних утиліт CPU-Z і HWMonitor могли завантажити шкідливе програмне забезпечення. Інцидент тривав кілька годин і вже усунений, однак наслідки можуть торкнутися значної кількості користувачів.

20 години тому

Детальніше

Космічна місія Artemis II успішно повернувся на Землю після польоту навколо Місяця

Південна Корея роздаватиме безкоштовні ПК через кризу пам’яті

В мережі з’явились перші рендери Samsung Galaxy Flip 8

Популярні Теги

Дослідження OpenAI виявила, що штучний інтелект здатний свідомо брехати

Що таке «scheming» у моделях ШІ

Чому навчити моделі «чесності» складно

Техніка «deliberative alignment»