OpenAI o3 показує нижчі результати на тестах, ніж заявляла компанія

OpenAI

Незалежні тести показали, що OpenAI o3 вирішує лише 10% задач FrontierMath, хоча компанія раніше заявляла про понад 25%.

Нещодавнє тестування моделі штучного інтелекту o3 від OpenAI викликало запитання щодо прозорості компанії та чесності її бенчмарків, повідомляє TechCrunch. Незалежна організація Epoch AI виявила, що реальні результати моделі значно нижчі за ті, які OpenAI демонструвала під час презентації у грудні 2024 року.

На момент анонсу Mark Chen, технічний директор OpenAI, заявив, що модель o3 може правильно вирішити понад 25% задач з набору FrontierMath — складного математичного тесту для ІІ. Це вражаючий показник, враховуючи, що інші моделі не перевищували 2%.

Проте, як з’ясувалося, такий результат досягнуто в «агресивних» умовах тестування, з використанням потужніших обчислювальних ресурсів, ніж у публічній версії моделі.

Epoch AI, автори бенчмарку FrontierMath, провели власне тестування o3 і зафіксували результат близько 10%. Це суттєво нижче, ніж заявлені OpenAI 25%. Водночас дослідники зазначили, що різниця може бути пов’язана з використанням іншої версії тестового набору або менш потужної конфігурації моделі.

Також стало відомо, що публічна версія o3 — це інша модель, адаптована для чату й комерційного використання. Представники ARC Prize Foundation, які тестували попередню версію моделі, підтвердили, що релізна версія має менше обчислювальних ресурсів, ніж прототип.

Представник OpenAI Wenda Zhou визнав, що комерційна версія o3 оптимізована під реальні сценарії використання — швидкість та ефективність, а не максимальні результати в тестах. За його словами, модель стала «більш корисною» та менш ресурсозатратною для користувачів.

Попри розчарування, варто зазначити, що інші моделі компанії — o3-mini-high та o4-mini — вже перевершують o3 за продуктивністю на FrontierMath. Також найближчим часом очікується реліз ще потужнішої версії — o3-pro.

Цей випадок — чергове нагадування, що не всі заявлені бенчмарки варто сприймати без критики. У гонитві за заголовками компанії часто тестують моделі в умовах, далеких від реального використання. Наприклад, раніше Meta та xAI Ілона Маска також були звинувачені в маніпуляціях з результатами тестів своїх моделей.

Крім того, OpenAI вже піддавалася критиці у січні, коли з’ясувалося, що Epoch отримала фінансування від компанії, але не розкрила це до моменту релізу o3.


Телеграм double.newsТелеграм double.news

Схожі Новини
«Київстар» планує купити мережу Comfy

«Київстар» планує купити мережу Comfy

Найбільший телеком-оператор України Київстар готується до стратегічної угоди з найбільшим ритейлером електроніки та побутової техніки Comfy. Про можливе підписання угоди може бути оголошено вже найближчим часом.
Детальніше
Windows 11

Обов’язкове оновлення Windows 11 спричинило масові збої системи

Січневе обов’язкове оновлення безпеки KB5074109 для Windows 11 замість підвищення стабільності спричинило хвилю серйозних збоїв. Користувачі масово скаржаться на краші системи, проблеми з вимкненням ПК і некоректну роботу вбудованих та корпоративних застосунків. Microsoft підтвердила частину проблем, але повноцінні виправлення обіцяє не раніше лютого.
Детальніше
Ілон Маск

Ілон Маск назвав доньку на честь закляття з Elden Ring

Ілон Маск, відомий своєю любов’ю до відеоігор і нестандартних імен для дітей, повідомив, що назвав свою доньку Comet Azure на честь одного з найпотужніших заклять у грі Elden Ring. Про це Маск повідомив у X, опублікувавши допис із поясненням походження імен своїх дітей.
Детальніше