xAI звинувачують у маніпуляціях з бенчмарками Grok-3

xAI

У лютому 2025 року компанія xAI представила Grok-3 — штучний інтелект нового покоління, який, за словами компанії, перевершує конкурентів, зокрема OpenAI та DeepSeek, у тестах з математики, науки та програмування. Представники xAI заявили, що їхня модель є “найрозумнішою AI-системою на ринку”.

Однак співробітник OpenAI, який побажав залишитися анонімним, звинуватив xAI у маніпуляціях із результатами бенчмарків. Він стверджує, що дані, оприлюднені xAI, не відповідають незалежним тестам та можуть вводити користувачів в оману. Це викликало хвилю обговорень у сфері штучного інтелекту щодо прозорості методів оцінки AI-моделей.

Експерти закликають до незалежних перевірок результатів та стандартизованих методів оцінки, щоб уникнути подібних ситуацій у майбутньому. Станом на зараз xAI не надала офіційних коментарів щодо цих звинувачень.

Схожі Новини
ChatGPT 4 Turbo

Нові AI-моделі від OpenAI краще міркують, але частіше «галюцинують»

OpenAI представила нові моделі GPT-4 Turbo з покращеними здібностями до міркування. Вони використовуються в сервісі ChatGPT та мають кращу продуктивність у вирішенні логічних завдань і аналізі складної інформації. Проте з новими можливостями зʼявились і нові виклики.
Детальніше
YouTube Music

YouTube Music отримає функцію вирівнювання гучності: що це і як вона працює

YouTube Music почав тестувати нову функцію під назвою Consistent Volume. Вона автоматично вирівнює рівень гучності між треками, що особливо корисно при прослуховуванні плейлистів, альбомів або міксів, де рівень звуку може значно коливатися.
Детальніше