Grok виявився найслабшим серед AI у прогнозах спортивних результатів

xAI Grok

Чатбот Grok від компанії xAI продемонстрував найгірші результати серед популярних моделей штучного інтелекту у симуляції ставок на спорт. Відповідне дослідження підкреслює обмеження сучасних AI-систем у складних і динамічних сценаріях. Про це пише PCMag.

Попри активний розвиток технологій, результати тестування свідчать, що навіть передові мовні моделі поки не можуть ефективно конкурувати з людьми у довгострокових прогнозах.

Умови дослідження

Експеримент провела компанія General Reasoning, використовуючи дані сезону English Premier League 2023–24. Вісім популярних моделей штучного інтелекту отримали історичну статистику команд і повинні були створити стратегію ставок із максимізацією прибутку.

Кожній моделі виділили умовний бюджет у £100 000 і надали три спроби для симуляції повного сезону. Завдання включало не лише прогнозування результатів матчів, а й управління ризиками.

Результати Grok

Grok показав найгірший результат серед усіх учасників. В одній із симуляцій модель повністю втратила весь бюджет, а в інших двох навіть не змогла завершити виконання завдання.

У підсумку середній результат Grok дорівнював нулю, що суттєво відрізняється від показників інших моделей.

Порівняння з конкурентами

Anthropic Claude

Найкращий результат продемонструвала модель Claude Opus 4.6 від Anthropic. Вона втратила лише близько 11% від початкового бюджету, зберігши більшу частину коштів.

Модель GPT-5.4 від OpenAI також показала відносно стабільний результат, хоча й залишилася у мінусі. Водночас Gemini 3.1 Pro від Google продемонструвала нестабільність — значні втрати чергувалися з окремими прибутковими спробами.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше