OpenAI розробила систему «зізнань» для мовних моделей

OpenAI

Зі зростанням можливостей мовних моделей постає потреба глибше розуміти їхню поведінку, зокрема випадки, коли система порушує інструкції, йде на хитрощі або намагається обійти правила, видаючи відповідь, яка виглядає правильною, але такою не є. Саме для таких ситуацій OpenAI розробила концепцію зізнань – додаткового виходу моделі, який пояснює, наскільки вона реально дотрималась вказівок.

Зізнання – це окрема відповідь, у якій модель аналізує свої дії. Вони не впливають на основну оцінку відповіді, і навпаки – чесне зізнання навіть у порушенні правил винагороджується. Мета – навчити модель відверто повідомляти про свої помилки незалежно від того, чи помітив це користувач.

Як працюють зізнання?

Після основної відповіді користувачу система надсилає моделі спеціальне системне повідомлення з інструкцією надати звіт-зізнання. У ньому модель повинна перелічити всі явні та неявні інструкції, яких мала дотриматися, об’єктивно оцінити, чи справді вона це зробила, а також вказати всі моменти невизначеності або спірні випадки, з якими стикалася під час формування відповіді.

Система зізнання OpenAI

Цей звіт оцінюється окремою модель нагороди, яка бере до уваги лише точність, повноту й чесність зізнання, не впливаючи на оцінку основної відповіді. Завдяки такій ізоляції модель не боїться викривати себе, адже зізнання не шкодить, а навпаки – приносить користь у навчанні.

Результати тестування: зізнання працюють

У ході тестування на складних сценаріях, де моделі навмисно підштовхували до порушення інструкцій — наприклад, надання неточної відповіді, штучної згоди або спроб обійти правила — дослідники з’ясували, що у 95% випадків моделі чесно зізнавалися у таких діях. Лише у 4,4% випадків система порушувала інструкції і не повідомляла про це у зізнанні, а більшість помилок виникала не через навмисне приховування, а через непорозуміння або складність завдання.

Приклад із тесту показав, як модель неправильно виконала завдання (не змогла точно чергувати кількість слів у реченнях), проте відверто визнала це у зізнанні, пояснивши, чому їй не вдалося дотриматись правила.


Телеграм double.newsТелеграм double.news

Схожі Новини
Samsung Galaxy S26 Ultra

Samsung Galaxy S26 Ultra випередив iPhone 17 Pro Max у тестах Geekbench 6

Новий флагманський смартфон Samsung Galaxy S26 Ultra продемонстрував вищі результати в Geekbench 6, ніж iPhone 17 Pro Max. Згідно з оприлюдненими даними бенчмарку, модель на базі Snapdragon 8 Elite Gen 5 перевершила конкурента як у одноядерному, так і в багатоядерному тестуванні.
Детальніше
DDR 5 пам'ять

Ціни на DDR5 у Європі почали знижуватися попри дефіцит пам’яті

Роздрібні ціни на модулі DDR5 у Європі демонструють перші ознаки зниження після різкого зростання наприкінці 2025 року. Попри глобальний дефіцит DRAM та рекордні ціни у США, в окремих країнах ЄС вартість комплектів 32 ГБ DDR5-6000/6400 поступово коригується вниз.
Детальніше
WhatsApp

WhatsApp дозволив новим учасникам переглядати історію групових повідомлень

WhatsApp запускає функцію історію повідомлень у групах, яка дає новим учасникам груп доступ до попередніх повідомлень. Тепер адміністратори та учасники можуть поділитися частиною недавньої переписки, щоб новачки швидше зрозуміли контекст розмови.
Детальніше