OpenAI o3 показує нижчі результати на тестах, ніж заявляла компанія

21.04.2025

Незалежні тести показали, що OpenAI o3 вирішує лише 10% задач FrontierMath, хоча компанія раніше заявляла про понад 25%.

Нещодавнє тестування моделі штучного інтелекту o3 від OpenAI викликало запитання щодо прозорості компанії та чесності її бенчмарків, повідомляє TechCrunch. Незалежна організація Epoch AI виявила, що реальні результати моделі значно нижчі за ті, які OpenAI демонструвала під час презентації у грудні 2024 року.

На момент анонсу Mark Chen, технічний директор OpenAI, заявив, що модель o3 може правильно вирішити понад 25% задач з набору FrontierMath — складного математичного тесту для ІІ. Це вражаючий показник, враховуючи, що інші моделі не перевищували 2%.

Проте, як з’ясувалося, такий результат досягнуто в «агресивних» умовах тестування, з використанням потужніших обчислювальних ресурсів, ніж у публічній версії моделі.

Epoch AI, автори бенчмарку FrontierMath, провели власне тестування o3 і зафіксували результат близько 10%. Це суттєво нижче, ніж заявлені OpenAI 25%. Водночас дослідники зазначили, що різниця може бути пов’язана з використанням іншої версії тестового набору або менш потужної конфігурації моделі.

Також стало відомо, що публічна версія o3 — це інша модель, адаптована для чату й комерційного використання. Представники ARC Prize Foundation, які тестували попередню версію моделі, підтвердили, що релізна версія має менше обчислювальних ресурсів, ніж прототип.

Представник OpenAI Wenda Zhou визнав, що комерційна версія o3 оптимізована під реальні сценарії використання — швидкість та ефективність, а не максимальні результати в тестах. За його словами, модель стала «більш корисною» та менш ресурсозатратною для користувачів.

Попри розчарування, варто зазначити, що інші моделі компанії — o3-mini-high та o4-mini — вже перевершують o3 за продуктивністю на FrontierMath. Також найближчим часом очікується реліз ще потужнішої версії — o3-pro.

Цей випадок — чергове нагадування, що не всі заявлені бенчмарки варто сприймати без критики. У гонитві за заголовками компанії часто тестують моделі в умовах, далеких від реального використання. Наприклад, раніше Meta та xAI Ілона Маска також були звинувачені в маніпуляціях з результатами тестів своїх моделей.

Крім того, OpenAI вже піддавалася критиці у січні, коли з’ясувалося, що Epoch отримала фінансування від компанії, але не розкрила це до моменту релізу o3.

Схожі Новини

Технології

Claude Code зламав Subway Surfers і накрутив нескінченну валюту

Штучний інтелект поступово виходить за межі простих завдань і починає виконувати складні технічні операції. Один із таких прикладів — експеримент, у якому ШІ-агент Claude Code отримав повний доступ до Android-смартфона та самостійно зламав популярну гру.

22 години тому

Детальніше

Технології

X готує запуск XChat — окремого месенджера з шифруванням і дзвінками

X готується розширити свою екосистему — цього разу за рахунок повноцінного месенджера. Новий додаток XChat вже з’явився в App Store і, за попередніми даними, стане доступним для завантаження 17 квітня 2026 року.

2 дні тому

Детальніше

Технології

YouTube пояснив причину 90-секундної реклами на телевізорах

YouTube цього тижня масово скаржилися на дивну поведінку реклами — у додатках для телевізорів з’являлися нібито 90-секундні ролики без можливості пропуску. Це викликало хвилю обурення та підозри щодо тестування нових рекламних форматів.

2 дні тому

Детальніше