
Незалежні тести показали, що OpenAI o3 вирішує лише 10% задач FrontierMath, хоча компанія раніше заявляла про понад 25%.
Нещодавнє тестування моделі штучного інтелекту o3 від OpenAI викликало запитання щодо прозорості компанії та чесності її бенчмарків, повідомляє TechCrunch. Незалежна організація Epoch AI виявила, що реальні результати моделі значно нижчі за ті, які OpenAI демонструвала під час презентації у грудні 2024 року.
На момент анонсу Mark Chen, технічний директор OpenAI, заявив, що модель o3 може правильно вирішити понад 25% задач з набору FrontierMath — складного математичного тесту для ІІ. Це вражаючий показник, враховуючи, що інші моделі не перевищували 2%.
Проте, як з’ясувалося, такий результат досягнуто в «агресивних» умовах тестування, з використанням потужніших обчислювальних ресурсів, ніж у публічній версії моделі.
Epoch AI, автори бенчмарку FrontierMath, провели власне тестування o3 і зафіксували результат близько 10%. Це суттєво нижче, ніж заявлені OpenAI 25%. Водночас дослідники зазначили, що різниця може бути пов’язана з використанням іншої версії тестового набору або менш потужної конфігурації моделі.
Також стало відомо, що публічна версія o3 — це інша модель, адаптована для чату й комерційного використання. Представники ARC Prize Foundation, які тестували попередню версію моделі, підтвердили, що релізна версія має менше обчислювальних ресурсів, ніж прототип.
Представник OpenAI Wenda Zhou визнав, що комерційна версія o3 оптимізована під реальні сценарії використання — швидкість та ефективність, а не максимальні результати в тестах. За його словами, модель стала «більш корисною» та менш ресурсозатратною для користувачів.
Попри розчарування, варто зазначити, що інші моделі компанії — o3-mini-high та o4-mini — вже перевершують o3 за продуктивністю на FrontierMath. Також найближчим часом очікується реліз ще потужнішої версії — o3-pro.
Цей випадок — чергове нагадування, що не всі заявлені бенчмарки варто сприймати без критики. У гонитві за заголовками компанії часто тестують моделі в умовах, далеких від реального використання. Наприклад, раніше Meta та xAI Ілона Маска також були звинувачені в маніпуляціях з результатами тестів своїх моделей.
Крім того, OpenAI вже піддавалася критиці у січні, коли з’ясувалося, що Epoch отримала фінансування від компанії, але не розкрила це до моменту релізу o3.