
Сучасні нейромережі вміють генерувати складний код, писати тексти та підтримувати розмову, проте у них залишається одна велика системна вада. Моделі регулярно «галюцинують» — впевнено видають вигадану брехню за чисту правду. Лабораторія OpenAI опублікувала дослідження, де детально пояснила, чому так відбувається. Як з’ясувалося, розробники самі змушують штучний інтелект брехати через застарілі метрики оцінювання.
Чат-боти просто бояться зізнатися у власному незнанні фактів.
Анатомія галюцинацій: чому ШІ вигадує факти
Під галюцинаціями науковці розуміють абсолютно неправдиві твердження, сформульовані максимально логічним та переконливим тоном. Наприклад, під час тестів ШІ-помічник може легко вигадати назву наукової дисертації або змінити дату народження реального вченого.

Дослідники OpenAI наголошують: проблема криється в процесі навчання RLHF (зворотний зв’язок від людей). Коли модель складає тести, вона отримує бали лише за правильні відповіді. Якщо система чесно відповідає «я не знаю», алгоритм ставить їй нуль. У результаті нейромережа вчиться ризикувати та вгадувати факти, оскільки випадкова правильна здогадка приносить бали, а відмова від відповіді не приносить нічого. Це схоже на шкільний іспит, де вгадування навмання є більш вигідною стратегією, ніж пустий бланк.
Порівняння підходів до оцінювання ШІ-моделей
| Методологія оцінювання | Традиційний підхід (зараз) | Новий підхід OpenAI |
|---|---|---|
| Відповідь «Я не знаю» | Прирівнюється до помилки (0 балів) | Заохочується (частковий бал за чесність) |
| Впевнена помилка (галюцинація) | Оцінюється так само, як і відмова від відповіді | Суворо штрафується (від’ємні бали) |
| Мотивація моделі | Вгадувати та ризикувати заради максимального балу | Визнавати межі власних знань |
| Результат для користувача | Отримання переконливої, але неправдивої інформації | Більш достовірні факти та чітка відмова у разі браку даних |

Додатковою проблемою є архітектура LLM. Під час базового навчання моделі просто передбачають найбільш ймовірні наступні слова в реченнях. Вони добре розуміють граматичні правила та структуру мови, але не мають механізму перевірки фактів у реальному часі. Для вирішення цієї проблеми OpenAI пропонує змінити правила гри: ввести жорсткі штрафи за впевнену брехню та нараховувати бонуси за відповідь «я не знаю».
Підсумок
Компанія OpenAI випустила звіт, у якому пояснила феномен «галюцинацій» великих мовних моделей. За словами вчених, сучасні системи оцінювання підштовхують штучний інтелект до вгадування відповідей, оскільки чесне формулювання «я не знаю» прирівнюється до помилки та приносить 0 балів. Щоб виправити цю ваду, OpenAI пропонує запровадити нову систему оцінювання: штрафувати моделі за впевнено згенеровані вигадки та заохочувати їх вказувати межі власної компетенції. Це має стимулювати створення більш надійного та правдивого ШІ, який відмовлятиметься від відповідей на запитання у разі браку перевірених даних.

