Штучний інтелект від OpenAI зрівнявся з експертами в реальних професіях

AI

OpenAI представила власний тест GDPval, який вимірює, наскільки ефективно AI-моделі можуть виконувати роботу в економічно важливих сферах. Перша версія тесту — GDPval-v0 — охоплює 9 галузей, що формують основу ВВП США, включно з охороною здоров’я, фінансами, виробництвом і державним сектором.

Загалом перевірялися 44 професії, серед яких журналісти, медсестри та інженери-програмісти.

Результати GPT-5 та конкурентів

У тестуванні брали участь професіонали, які порівнювали звіти, підготовлені людьми, із тими, що створили AI-моделі.

  • GPT-5-high (посилена версія моделі з більшими обчислювальними ресурсами) показала результат: 40,6% випадків відповідей визнані кращими або на рівні експертів.
  • Claude Opus 4.1 від Anthropic продемонстрував навіть вищий показник — 49%. OpenAI пояснює цей результат схильністю Claude створювати приємні для ока візуальні матеріали.

Для порівняння, GPT-4o, випущений 15 місяців тому, отримав лише 13,7% у подібному тесті.

Попри прогрес, OpenAI визнає: поточний GDPval перевіряє лише вузьке коло завдань, зокрема створення дослідницьких звітів, тоді як реальна робота професіоналів значно ширша. У майбутньому компанія планує розробити більш масштабні тести, які охоплюватимуть інтерактивніші та різноманітніші сценарії.


Телеграм double.newsТелеграм double.news

Схожі Новини
Погода Android

Google припиняє підтримку застосунку погода на Android

Google поступово відмовляється від окремого погодного застосунку на Android, інтегруючи прогноз безпосередньо в результати пошуку Google. Зміни вже почали впроваджуватися кілька місяців тому, але останнім часом користувачі дедалі частіше помічають перенаправлення зі звичного ярлика «Погода» на сторінку пошуку.
Детальніше
Дистпечер завдань Windows 11

Автор першого Диспетчера завдань Windows показав альтернативний дизайн утиліти

Творець оригінального Диспетчера завдань Windows Дейв Пламмер представив власне бачення того, як могла б виглядати ця утиліта сьогодні. Концепт створений у межах його персонального проєкту Tempest AI та вже доступний для перегляду разом із кодом на GitHub.
Детальніше
OpenAI

OpenAI розробляє розумну колонку з камерою

OpenAI працює над своїм першим апаратним продуктом - «розумною» колонкою з камерою та функціями розпізнавання обличчя. За даними видання The Information, пристрій може коштувати від 200 до 300 доларів і надійти у продаж не раніше березня 2027 року.
Детальніше