Meta завищила показники Llama 4 у бенчмарках — використала окрему версію моделі

Офіс Meta

Meta заявила, що її нова флагманська AI-модель Maverick посіла друге місце у бенчмарку LM Arena — рейтингу, де оцінювачі порівнюють відповіді моделей і обирають кращу. Але, як зʼясувалося, версія Maverick, яка брала участь у тесті, не збігається з тією, що доступна для завантаження розробникам.

Дослідники у X (колишній Twitter) звернули увагу, що в офіційному повідомленні Meta зазначено: у тестуванні брала участь «експериментальна чат-версія» моделі. А діаграма на сайті Llama вказує, що це був варіант «оптимізований для розмови» — тобто спеціально налаштований під формат LM Arena.

Хоча LM Arena і не вважається ідеальним показником продуктивності, більшість AI-компаній не зізнаються у тому, що змінюють свої моделі спеціально для кращих результатів у тестах. Meta ж фактично використала модель, яка не відповідає публічному релізу, а отже, результати можуть бути оманливими.

Це створює труднощі для розробників, які орієнтуються на бенчмарки при виборі моделі для своїх продуктів. Очікування, сформовані на основі результатів у LM Arena, не виправдовуються у реальному використанні.

AI-експерти, які протестували загальнодоступну версію Maverick, помітили суттєві відмінності у стилі відповідей. Версія, що використовувалась у LM Arena, генерує надмірно розлогі тексти, активно застосовує емодзі та відповідає в стилі «користувачеві подобається». Це може сприяти вищим оцінкам у бенчмарках, але не обовʼязково відображає реальні можливості моделі в прикладних завданнях.

Такий підхід до тестування викликає занепокоєння в AI-спільноті. Якщо компанії й надалі демонструватимуть «спеціальні» версії моделей у бенчмарках, не відкриваючи їх публічно, це підірве довіру до систем оцінки продуктивності. Прозорість та відповідність заявлених і реальних характеристик моделі мають стати галузевим стандартом.

Джерело: TechCrunch


Телеграм double.newsТелеграм double.news

Схожі Новини
Вірус

У США ексспівробітники кібербезпеки використали вірус для вимагання $1,2 млн

У США двоє колишніх працівників компаній у сфері кібербезпеки визнали себе винними у здійсненні серії ransomware-атак, які відбулися у 2023 році. За даними Міністерство юстиції США, зловмисники використали шкідливе ПЗ ALPHV / BlackCat і вимагали викуп у біткоїнах на суму понад 1,2 мільйона доларів.
Детальніше
Disney

Disney заплатить $10 млн за порушення правил захисту даних дітей на YouTube

Disney погодилася виплатити 10 мільйонів доларів цивільного штрафу після звинувачень у порушенні федерального законодавства США щодо захисту персональних даних дітей. Йдеться про неправильно маркований дитячий контент на YouTube, що, за версією влади, призвело до незаконного збору даних та показу таргетованої реклами.
Детальніше
iPhone 17 Pro Max

Користувачі iPhone 17 Pro скаржаться на шипіння динаміка під час заряджання

Після виходу нових смартфонів Apple традиційно з’являються поодинокі скарги на програмні або апаратні нюанси. Цього разу частина власників iPhone 17 Pro та iPhone 17 Pro Max повідомляє про незвичну проблему - сторонній шум або шипіння з динаміків під час заряджання пристрою.
Детальніше