OpenAI o3 показує нижчі результати на тестах, ніж заявляла компанія

OpenAI

Незалежні тести показали, що OpenAI o3 вирішує лише 10% задач FrontierMath, хоча компанія раніше заявляла про понад 25%.

Нещодавнє тестування моделі штучного інтелекту o3 від OpenAI викликало запитання щодо прозорості компанії та чесності її бенчмарків, повідомляє TechCrunch. Незалежна організація Epoch AI виявила, що реальні результати моделі значно нижчі за ті, які OpenAI демонструвала під час презентації у грудні 2024 року.

На момент анонсу Mark Chen, технічний директор OpenAI, заявив, що модель o3 може правильно вирішити понад 25% задач з набору FrontierMath — складного математичного тесту для ІІ. Це вражаючий показник, враховуючи, що інші моделі не перевищували 2%.

Проте, як з’ясувалося, такий результат досягнуто в «агресивних» умовах тестування, з використанням потужніших обчислювальних ресурсів, ніж у публічній версії моделі.

Epoch AI, автори бенчмарку FrontierMath, провели власне тестування o3 і зафіксували результат близько 10%. Це суттєво нижче, ніж заявлені OpenAI 25%. Водночас дослідники зазначили, що різниця може бути пов’язана з використанням іншої версії тестового набору або менш потужної конфігурації моделі.

Також стало відомо, що публічна версія o3 — це інша модель, адаптована для чату й комерційного використання. Представники ARC Prize Foundation, які тестували попередню версію моделі, підтвердили, що релізна версія має менше обчислювальних ресурсів, ніж прототип.

Представник OpenAI Wenda Zhou визнав, що комерційна версія o3 оптимізована під реальні сценарії використання — швидкість та ефективність, а не максимальні результати в тестах. За його словами, модель стала «більш корисною» та менш ресурсозатратною для користувачів.

Попри розчарування, варто зазначити, що інші моделі компанії — o3-mini-high та o4-mini — вже перевершують o3 за продуктивністю на FrontierMath. Також найближчим часом очікується реліз ще потужнішої версії — o3-pro.

Цей випадок — чергове нагадування, що не всі заявлені бенчмарки варто сприймати без критики. У гонитві за заголовками компанії часто тестують моделі в умовах, далеких від реального використання. Наприклад, раніше Meta та xAI Ілона Маска також були звинувачені в маніпуляціях з результатами тестів своїх моделей.

Крім того, OpenAI вже піддавалася критиці у січні, коли з’ясувалося, що Epoch отримала фінансування від компанії, але не розкрила це до моменту релізу o3.


Телеграм double.newsТелеграм double.news

Схожі Новини
Mozilla Firefox

Mozilla припиняє підтримку Firefox на Windows 7, 8 і 8.1

Mozilla офіційно оголосила про завершення підтримки браузера Mozilla Firefox для операційних систем Windows 7, Windows 8 та Windows 8.1. Останньою версією, що отримувала оновлення безпеки для цих платформ, залишався Firefox 115 ESR.
Детальніше
CEO Nvidia

Дженсен Хуанг анонсував «чип, що здивує світ» на GTC 2026

Генеральний директор Nvidia Дженсен Хуанг пообіцяв представити на конференції GTC наступного місяця «чип, який здивує світ». Захід відбудеться 16–19 березня у Сан-Хосе та традиційно присвячений розвитку GPU-технологій і штучного інтелекту.
Детальніше
Project Silica Microsoft

Microsoft навчилася зберігати дані 10 000 років на звичайному склі

Microsoft повідомила про прорив у технології довготривалого зберігання даних на склі. Завдяки вдосконаленню лазерного запису інформацію тепер можна кодувати не лише на дорогому кварцовому склі, а й на звичайному боросилікатному матеріалі, який використовується у кухонному посуді та жаростійкому склі.
Детальніше