OpenAI o3 показує нижчі результати на тестах, ніж заявляла компанія

OpenAI

Незалежні тести показали, що OpenAI o3 вирішує лише 10% задач FrontierMath, хоча компанія раніше заявляла про понад 25%.

Нещодавнє тестування моделі штучного інтелекту o3 від OpenAI викликало запитання щодо прозорості компанії та чесності її бенчмарків, повідомляє TechCrunch. Незалежна організація Epoch AI виявила, що реальні результати моделі значно нижчі за ті, які OpenAI демонструвала під час презентації у грудні 2024 року.

На момент анонсу Mark Chen, технічний директор OpenAI, заявив, що модель o3 може правильно вирішити понад 25% задач з набору FrontierMath — складного математичного тесту для ІІ. Це вражаючий показник, враховуючи, що інші моделі не перевищували 2%.

Проте, як з’ясувалося, такий результат досягнуто в «агресивних» умовах тестування, з використанням потужніших обчислювальних ресурсів, ніж у публічній версії моделі.

Epoch AI, автори бенчмарку FrontierMath, провели власне тестування o3 і зафіксували результат близько 10%. Це суттєво нижче, ніж заявлені OpenAI 25%. Водночас дослідники зазначили, що різниця може бути пов’язана з використанням іншої версії тестового набору або менш потужної конфігурації моделі.

Також стало відомо, що публічна версія o3 — це інша модель, адаптована для чату й комерційного використання. Представники ARC Prize Foundation, які тестували попередню версію моделі, підтвердили, що релізна версія має менше обчислювальних ресурсів, ніж прототип.

Представник OpenAI Wenda Zhou визнав, що комерційна версія o3 оптимізована під реальні сценарії використання — швидкість та ефективність, а не максимальні результати в тестах. За його словами, модель стала «більш корисною» та менш ресурсозатратною для користувачів.

Попри розчарування, варто зазначити, що інші моделі компанії — o3-mini-high та o4-mini — вже перевершують o3 за продуктивністю на FrontierMath. Також найближчим часом очікується реліз ще потужнішої версії — o3-pro.

Цей випадок — чергове нагадування, що не всі заявлені бенчмарки варто сприймати без критики. У гонитві за заголовками компанії часто тестують моделі в умовах, далеких від реального використання. Наприклад, раніше Meta та xAI Ілона Маска також були звинувачені в маніпуляціях з результатами тестів своїх моделей.

Крім того, OpenAI вже піддавалася критиці у січні, коли з’ясувалося, що Epoch отримала фінансування від компанії, але не розкрила це до моменту релізу o3.

Схожі Новини
Meta

Витік показав, як Meta навчає чат-ботів першими писати користувачам і підтримувати діалог

Meta активно працює над удосконаленням своїх штучних співрозмовників на платформі AI Studio. Згідно з витеклими документами, компанія навчає ботів надсилати ініціативні повідомлення, запам’ятовувати попередні розмови й підтримувати персоналізований діалог — все це для підвищення залученості користувачів.
Детальніше
Фото землі з космосу

Астронавтка NASA зафіксувала рідкісне атмосферне явище з орбіти Землі

Американська астронавтка Ніколь Айєрс зробила вражаюче фото рідкісного електричного явища — блискавкоподібного спалаху у верхніх шарах атмосфери, що виник над потужною грозою. Світлину вона опублікувала у соцмережі X прямо з борту Міжнародної космічної станції (МКС), супроводивши підписом: «Просто. Вау.»
Детальніше
iMessage

iOS 26 автоматично приховуватиме повідомлення від незнайомих контактів

У новій версії операційної системи iOS 26 компанія Apple запровадила вдосконалені інструменти для боротьби зі спамом у стандартному додатку "Повідомлення". Головне нововведення — автоматичне приховування текстів від невідомих відправників, що дозволяє уникнути небажаного контенту та зберегти чистоту інтерфейсу.
Детальніше