OpenAI розробила систему «зізнань» для мовних моделей

OpenAI

Зі зростанням можливостей мовних моделей постає потреба глибше розуміти їхню поведінку, зокрема випадки, коли система порушує інструкції, йде на хитрощі або намагається обійти правила, видаючи відповідь, яка виглядає правильною, але такою не є. Саме для таких ситуацій OpenAI розробила концепцію зізнань – додаткового виходу моделі, який пояснює, наскільки вона реально дотрималась вказівок.

Зізнання – це окрема відповідь, у якій модель аналізує свої дії. Вони не впливають на основну оцінку відповіді, і навпаки – чесне зізнання навіть у порушенні правил винагороджується. Мета – навчити модель відверто повідомляти про свої помилки незалежно від того, чи помітив це користувач.

Як працюють зізнання?

Після основної відповіді користувачу система надсилає моделі спеціальне системне повідомлення з інструкцією надати звіт-зізнання. У ньому модель повинна перелічити всі явні та неявні інструкції, яких мала дотриматися, об’єктивно оцінити, чи справді вона це зробила, а також вказати всі моменти невизначеності або спірні випадки, з якими стикалася під час формування відповіді.

Система зізнання OpenAI

Цей звіт оцінюється окремою модель нагороди, яка бере до уваги лише точність, повноту й чесність зізнання, не впливаючи на оцінку основної відповіді. Завдяки такій ізоляції модель не боїться викривати себе, адже зізнання не шкодить, а навпаки – приносить користь у навчанні.

Результати тестування: зізнання працюють

У ході тестування на складних сценаріях, де моделі навмисно підштовхували до порушення інструкцій — наприклад, надання неточної відповіді, штучної згоди або спроб обійти правила — дослідники з’ясували, що у 95% випадків моделі чесно зізнавалися у таких діях. Лише у 4,4% випадків система порушувала інструкції і не повідомляла про це у зізнанні, а більшість помилок виникала не через навмисне приховування, а через непорозуміння або складність завдання.

Приклад із тесту показав, як модель неправильно виконала завдання (не змогла точно чергувати кількість слів у реченнях), проте відверто визнала це у зізнанні, пояснивши, чому їй не вдалося дотриматись правила.


Телеграм double.newsТелеграм double.news

Схожі Новини
Боббі Котік

Боббі Котік заявив, що падіння Call of Duty доводить правильність продажу Activision Microsoft

Колишній генеральний директор Activision Blizzard Боббі Котік заявив, що нинішні проблеми з продажами Call of Duty та загальний спад консольного ринку нібито підтверджують правильність рішення продати компанію Microsoft за $69 млрд. Такі твердження він висунув у відповіді на судовий позов інвесторів, які оскаржують умови угоди.
Детальніше
Телескоп Джеймса Вебба отримав найчіткіше зображення середовища надмасивної чорної діри

Телескоп Джеймса Вебба отримав найчіткіше зображення середовища надмасивної чорної діри

Космічний телескоп Джеймс Вебб отримав найдеталізованіше за всю історію зображення середовища навколо надмасивної чорної діри в центрі галактики Циркуль, що розташована приблизно за 13 мільйонів світлових років від Землі. Нові дані не лише встановили рекорд за чіткістю, а й спростували давню наукову гіпотезу щодо природи інфрачервоного світіння в ядрі галактики.
Детальніше
Розробник видалив свою гру після того, як дівчина переконала його, що ШІ - це зло

Розробник видалив свою гру після того, як дівчина переконала його, що ШІ – це зло

Інді-розробник Ееро Лайне повідомив про рішення назавжди видалити свою гру Hardest зі Steam через етичні міркування, пов’язані з використанням генеративного штучного інтелекту. Проєкт буде видалено з платформи Steam 30 січня.
Детальніше