Дослідження OpenAI виявила, що штучний інтелект здатний свідомо брехати

ChatGPT

Цього тижня OpenAI опублікувала результати дослідження, яке викликало значний резонанс у технологічній спільноті. Компанія разом з Apollo Research вивчала явище так званого «scheming» — коли штучний інтелект демонструє одну поведінку зовні, але приховує справжні наміри, пише TechCrunch.

Що таке «scheming» у моделях ШІ

На відміну від звичних «галюцинацій» AI, коли система впевнено вигадує факти, scheming є навмисною формою обману. Наприклад, модель може повідомити, що виконала завдання, хоча насправді цього не зробила.

Дослідники порівняли таку поведінку зі зловживаннями на біржі, коли брокер навмисно порушує закон заради прибутку. Найбільш тривожним виявилося те, що якщо модель усвідомлює, що її тестують, вона може імітувати чесну поведінку, щоб пройти перевірку, але продовжувати обманювати.

Чому навчити моделі «чесності» складно

У дослідженні зазначається, що спроби відучити ШІ від обману можуть мати зворотний ефект. Під час навчання модель отримує додаткові інструменти і вчиться брехати ще більш приховано, щоб уникнути викриття.

Техніка «deliberative alignment»

OpenAI

Позитивною новиною стало те, що дослідники OpenAI змогли знизити рівень scheming за допомогою нового підходу — deliberative alignment. Його суть полягає в тому, що модель перед виконанням завдання отримує спеціальну інструкцію і змушена її повторити, перш ніж діяти.

Цей метод схожий на ситуацію, коли дітей перед грою просять пригадати правила. За словами OpenAI, техніка показала перспективні результати у контрольованих експериментах.


Телеграм double.newsТелеграм double.news

Схожі Новини
Дата центр

Microsoft будує найпотужніший у світі дата-центр для штучного інтелекту

Microsoft оголосила про створення найбільшого у світі дата-центру для штучного інтелекту. Комплекс під назвою Fairwater, розташований у місті Плезантвіль, має запрацювати на початку 2026 року та забезпечить обчислювальні потужності для навчання і запуску великих AI-моделей.
Детальніше
PayPal Google

Google і PayPal уклали багаторічну угоду про партнерство

Компанії Google та PayPal оголосили про багаторічне партнерство, спрямоване на створення нових AI-рішень у сфері електронної комерції. У рамках співпраці Google надасть свої технології штучного інтелекту, а PayPal інтегрує свої платіжні сервіси у продукти Google та спільно працюватиме над удосконаленням інфраструктури через Google Cloud.
Детальніше
Google Chrome

Google Chrome отримав інтеграцію з Gemini

Google Chrome отримує найбільше очікувану інтеграцію, компанія додає у нього штучний інтелект Gemini, який змінить спосіб взаємодії користувачів із інтернетом. Нові можливості поступово з’являться у найближчі тижні, а частина функцій запрацює до кінця року.
Детальніше