xAI звинувачують у маніпуляціях з бенчмарками Grok-3

xAI

У лютому 2025 року компанія xAI представила Grok-3 — штучний інтелект нового покоління, який, за словами компанії, перевершує конкурентів, зокрема OpenAI та DeepSeek, у тестах з математики, науки та програмування. Представники xAI заявили, що їхня модель є “найрозумнішою AI-системою на ринку”.

Однак співробітник OpenAI, який побажав залишитися анонімним, звинуватив xAI у маніпуляціях із результатами бенчмарків. Він стверджує, що дані, оприлюднені xAI, не відповідають незалежним тестам та можуть вводити користувачів в оману. Це викликало хвилю обговорень у сфері штучного інтелекту щодо прозорості методів оцінки AI-моделей.

Експерти закликають до незалежних перевірок результатів та стандартизованих методів оцінки, щоб уникнути подібних ситуацій у майбутньому. Станом на зараз xAI не надала офіційних коментарів щодо цих звинувачень.


Телеграм double.newsТелеграм double.news

Схожі Новини
Google Play

Google Play дозволить безкоштовно тестувати платні ігри перед покупкою

Google запускає нову функцію Game Trials у магазині Google Play, яка дозволить користувачам безкоштовно спробувати платні мобільні ігри перед їх придбанням. Нововведення має спростити вибір ігор та дати гравцям можливість оцінити геймплей перед покупкою.
Детальніше
Telegram

У світі зафіксували масштабні збої в роботі Telegram

Користувачі месенджера Telegram повідомляли про перебої у його роботі в різних країнах світу. Проблеми почали фіксуватися вранці 12 березня і торкнулися користувачів у Європі, США та інших регіонах.
Детальніше
Steam Machine, Steam Deck, Steam Frame, Steam Controller

Valve розкрила вимоги до ігор для Steam Machine на GDC 2026

Під час конференції Game Developers Conference 2026 Valve показала нові деталі програми сертифікації ігор для майбутніх пристроїв Steam. Йдеться про систему Steam Machine Verified, яка визначатиме, чи відповідає гра технічним вимогам нової платформи. Після публікації слайдів презентації в мережі серед геймерів виникла активна дискусія щодо мінімальних вимог продуктивності.
Детальніше