Штучний інтелект від OpenAI зрівнявся з експертами в реальних професіях

AI

OpenAI представила власний тест GDPval, який вимірює, наскільки ефективно AI-моделі можуть виконувати роботу в економічно важливих сферах. Перша версія тесту — GDPval-v0 — охоплює 9 галузей, що формують основу ВВП США, включно з охороною здоров’я, фінансами, виробництвом і державним сектором.

Загалом перевірялися 44 професії, серед яких журналісти, медсестри та інженери-програмісти.

Результати GPT-5 та конкурентів

У тестуванні брали участь професіонали, які порівнювали звіти, підготовлені людьми, із тими, що створили AI-моделі.

  • GPT-5-high (посилена версія моделі з більшими обчислювальними ресурсами) показала результат: 40,6% випадків відповідей визнані кращими або на рівні експертів.
  • Claude Opus 4.1 від Anthropic продемонстрував навіть вищий показник — 49%. OpenAI пояснює цей результат схильністю Claude створювати приємні для ока візуальні матеріали.

Для порівняння, GPT-4o, випущений 15 місяців тому, отримав лише 13,7% у подібному тесті.

Попри прогрес, OpenAI визнає: поточний GDPval перевіряє лише вузьке коло завдань, зокрема створення дослідницьких звітів, тоді як реальна робота професіоналів значно ширша. У майбутньому компанія планує розробити більш масштабні тести, які охоплюватимуть інтерактивніші та різноманітніші сценарії.


Телеграм double.newsТелеграм double.news

Схожі Новини
iOS 26 Liquid Glass

Apple не планує радикально змінювати інтерфейс Liquid Glass в iOS 27

Apple, ймовірно, не планує суттєво змінювати дизайн інтерфейсу Liquid Glass у майбутньому оновленні iOS 27. Попри критику деяких користувачів та кадрові зміни у дизайнерській команді, компанія продовжує розвивати поточну візуальну концепцію, зосереджуючись на поступових покращеннях.
Детальніше
Apple Watch

Користувач Apple Watch заявив, що пристрій спричинив опік на зап’ясті

Користувач Apple Watch заявив, що розумний годинник спричинив опік на зап’ясті, однак найбільше розчарування викликала реакція служби підтримки компанії. За його словами, він намагався домогтися розслідування інциденту протягом шести місяців, але так і не отримав чіткої відповіді від Apple.
Детальніше
Процесор

Ціни на матеріали для чипів різко зросли через конфлікт на Близькому Сході та обмеження Китаю

Світовий ринок напівпровідників зіткнувся з новою хвилею зростання цін на ключові матеріали для виробництва чипів. За даними галузевих джерел, вартість деяких металів для мікроелектроніки подвоїлася, а ціни на галій значно зросли на тлі поєднання геополітичних факторів.
Детальніше