xAI звинувачують у маніпуляціях з бенчмарками Grok-3

xAI

У лютому 2025 року компанія xAI представила Grok-3 — штучний інтелект нового покоління, який, за словами компанії, перевершує конкурентів, зокрема OpenAI та DeepSeek, у тестах з математики, науки та програмування. Представники xAI заявили, що їхня модель є “найрозумнішою AI-системою на ринку”.

Однак співробітник OpenAI, який побажав залишитися анонімним, звинуватив xAI у маніпуляціях із результатами бенчмарків. Він стверджує, що дані, оприлюднені xAI, не відповідають незалежним тестам та можуть вводити користувачів в оману. Це викликало хвилю обговорень у сфері штучного інтелекту щодо прозорості методів оцінки AI-моделей.

Експерти закликають до незалежних перевірок результатів та стандартизованих методів оцінки, щоб уникнути подібних ситуацій у майбутньому. Станом на зараз xAI не надала офіційних коментарів щодо цих звинувачень.


Телеграм double.newsТелеграм double.news

Схожі Новини
Spotify

Spotify готує «балакучий» голосовий інтерфейс на базі штучного інтелекту

Spotify анонсував подальший розвиток інтерактивного голосового інтерфейсу, який базуватиметься на нових досягненнях генеративного ШІ. Під час оголошення фінансових результатів за другий квартал представники компанії заявили: взаємодія з платформою стане ще більш розмовною, персоналізованою і контекстною.
Детальніше
Хакер

ФБР конфіскувало $2,4 млн у Bitcoin у хакера з групи Chaos

Федеральне бюро розслідувань у місті Даллас оголосило про вилучення понад $2,4 мільйона в Bitcoin у передбачуваного учасника нової хакерської групи Chaos, яка стрімко набрала обертів на початку 2025 року.
Детальніше
ChatGPT

Перевірка на людину провалена: ChatGPT Agent проходить захист від ботів

Нова функція ChatGPT Agent від OpenAI, яка дозволяє ШІ самостійно працювати з веббраузером, здивувала користувачів мережі: під час виконання завдання агент спокійно пройшов одну з найпоширеніших онлайн-перевірок — чекбокс «Я не робот» від Cloudflare. Іронічно, що під час дій бот сам же й прокоментував: «Цей крок потрібен, щоб довести, що я не бот».
Детальніше