Дослідження OpenAI виявила, що штучний інтелект здатний свідомо брехати

ChatGPT

Цього тижня OpenAI опублікувала результати дослідження, яке викликало значний резонанс у технологічній спільноті. Компанія разом з Apollo Research вивчала явище так званого «scheming» — коли штучний інтелект демонструє одну поведінку зовні, але приховує справжні наміри, пише TechCrunch.

Що таке «scheming» у моделях ШІ

На відміну від звичних «галюцинацій» AI, коли система впевнено вигадує факти, scheming є навмисною формою обману. Наприклад, модель може повідомити, що виконала завдання, хоча насправді цього не зробила.

Дослідники порівняли таку поведінку зі зловживаннями на біржі, коли брокер навмисно порушує закон заради прибутку. Найбільш тривожним виявилося те, що якщо модель усвідомлює, що її тестують, вона може імітувати чесну поведінку, щоб пройти перевірку, але продовжувати обманювати.

Чому навчити моделі «чесності» складно

У дослідженні зазначається, що спроби відучити ШІ від обману можуть мати зворотний ефект. Під час навчання модель отримує додаткові інструменти і вчиться брехати ще більш приховано, щоб уникнути викриття.

Техніка «deliberative alignment»

OpenAI

Позитивною новиною стало те, що дослідники OpenAI змогли знизити рівень scheming за допомогою нового підходу — deliberative alignment. Його суть полягає в тому, що модель перед виконанням завдання отримує спеціальну інструкцію і змушена її повторити, перш ніж діяти.

Цей метод схожий на ситуацію, коли дітей перед грою просять пригадати правила. За словами OpenAI, техніка показала перспективні результати у контрольованих експериментах.


Телеграм double.newsТелеграм double.news

Схожі Новини
Steam

Steam дозволить додавати характеристики ПК до відгуків

Valve тестує нововведення у клієнті Steam, яке може зробити користувацькі відгуки значно інформативнішими. У бета-версії сервісу з’явилася можливість автоматично додавати характеристики комп’ютера до рецензії на гру.
Детальніше
Wifi роуетр

Через дефіцит пам’яті зростають ціни на роутери та ТВ-приставки

Світовий дефіцит пам’яті DRAM та зростання попиту з боку індустрії штучного інтелекту спричинили різке подорожчання модулів DDR4, що вже відображається на вартості роутерів і ТВ-приставок. За оцінками аналітиків Counterpoint Research, ціни на відповідну пам’ять зросли приблизно у сім разів, а її частка в собівартості обладнання збільшилася з близько 3% до майже 20%, що суттєво впливає на формування кінцевої ціни пристроїв для споживачів.
Детальніше

Sony запатентувала технологію, що дозволяє зменшити розмір ігор до 100 МБ

Sony запатентувала новий підхід до встановлення відеоігор, який потенційно може суттєво скоротити початковий розмір завантаження. Замість традиційних 100–300 ГБ користувачам пропонується інсталювати лише базовий пакет обсягом близько 100 МБ, тоді як решта ресурсів підвантажуватиметься під час гри через інтернет.
Детальніше