Штучний інтелект від OpenAI зрівнявся з експертами в реальних професіях

AI

OpenAI представила власний тест GDPval, який вимірює, наскільки ефективно AI-моделі можуть виконувати роботу в економічно важливих сферах. Перша версія тесту — GDPval-v0 — охоплює 9 галузей, що формують основу ВВП США, включно з охороною здоров’я, фінансами, виробництвом і державним сектором.

Загалом перевірялися 44 професії, серед яких журналісти, медсестри та інженери-програмісти.

Результати GPT-5 та конкурентів

У тестуванні брали участь професіонали, які порівнювали звіти, підготовлені людьми, із тими, що створили AI-моделі.

  • GPT-5-high (посилена версія моделі з більшими обчислювальними ресурсами) показала результат: 40,6% випадків відповідей визнані кращими або на рівні експертів.
  • Claude Opus 4.1 від Anthropic продемонстрував навіть вищий показник — 49%. OpenAI пояснює цей результат схильністю Claude створювати приємні для ока візуальні матеріали.

Для порівняння, GPT-4o, випущений 15 місяців тому, отримав лише 13,7% у подібному тесті.

Попри прогрес, OpenAI визнає: поточний GDPval перевіряє лише вузьке коло завдань, зокрема створення дослідницьких звітів, тоді як реальна робота професіоналів значно ширша. У майбутньому компанія планує розробити більш масштабні тести, які охоплюватимуть інтерактивніші та різноманітніші сценарії.


Телеграм double.newsТелеграм double.news

Схожі Новини
Південна Корея роздаватиме безкоштовні ПК через кризу пам’яті

Південна Корея роздаватиме безкоштовні ПК через кризу пам’яті

Зростання цін на оперативну пам’ять і накопичувачі створює дедалі більший тиск на споживачів і бізнес у всьому світі. У відповідь на це Південна Корея готує комплекс заходів, спрямованих на зниження витрат і збереження доступу до цифрових технологій для населення.
Детальніше
CPUID

Хакери зламами сайт CPUID і поширювали шкідливі версії популярних застосунків

Французька компанія CPUID підтвердила злам свого офіційного сайту, через яку користувачі популярних утиліт CPU-Z і HWMonitor могли завантажити шкідливе програмне забезпечення. Інцидент тривав кілька годин і вже усунений, однак наслідки можуть торкнутися значної кількості користувачів.
Детальніше
MacOS X Wii

Mac OS X запустили на Nintendo Wii

Розробник Браян Келлер успішно запустив операційну систему Mac OS X 10.0 Cheetah на ігровій консолі Nintendo Wii. Експеримент став прикладом нестандартного використання старого програмного забезпечення та апаратного забезпечення, демонструючи гнучкість архітектури PowerPC.
Детальніше