Meta завищила показники Llama 4 у бенчмарках — використала окрему версію моделі

Офіс Meta

Meta заявила, що її нова флагманська AI-модель Maverick посіла друге місце у бенчмарку LM Arena — рейтингу, де оцінювачі порівнюють відповіді моделей і обирають кращу. Але, як зʼясувалося, версія Maverick, яка брала участь у тесті, не збігається з тією, що доступна для завантаження розробникам.

Дослідники у X (колишній Twitter) звернули увагу, що в офіційному повідомленні Meta зазначено: у тестуванні брала участь «експериментальна чат-версія» моделі. А діаграма на сайті Llama вказує, що це був варіант «оптимізований для розмови» — тобто спеціально налаштований під формат LM Arena.

Хоча LM Arena і не вважається ідеальним показником продуктивності, більшість AI-компаній не зізнаються у тому, що змінюють свої моделі спеціально для кращих результатів у тестах. Meta ж фактично використала модель, яка не відповідає публічному релізу, а отже, результати можуть бути оманливими.

Це створює труднощі для розробників, які орієнтуються на бенчмарки при виборі моделі для своїх продуктів. Очікування, сформовані на основі результатів у LM Arena, не виправдовуються у реальному використанні.

AI-експерти, які протестували загальнодоступну версію Maverick, помітили суттєві відмінності у стилі відповідей. Версія, що використовувалась у LM Arena, генерує надмірно розлогі тексти, активно застосовує емодзі та відповідає в стилі «користувачеві подобається». Це може сприяти вищим оцінкам у бенчмарках, але не обовʼязково відображає реальні можливості моделі в прикладних завданнях.

Такий підхід до тестування викликає занепокоєння в AI-спільноті. Якщо компанії й надалі демонструватимуть «спеціальні» версії моделей у бенчмарках, не відкриваючи їх публічно, це підірве довіру до систем оцінки продуктивності. Прозорість та відповідність заявлених і реальних характеристик моделі мають стати галузевим стандартом.

Джерело: TechCrunch


Телеграм double.newsТелеграм double.news

Схожі Новини
Чорна діра поглинає матерію

Найпотужніші суперкомп’ютери створили найточнішу в історії симуляцію поглинання матерії чорною дірою

У проривному дослідженні команда астрофізиків з Інституту перспективних досліджень та Центру обчислювальної астрофізики Flatiron Institute змогла створити найточнішу на сьогодні симуляцію акреції чорної діри — процесу, під час якого матерія потрапляє в надмасивні космічні об'єкти.
Детальніше
iPhone 17 Pro

iPhone 17 Pro втратив важливу функцію Камери, яка була в iPhone 16 Pro

Попри численні покращення у камері нового iPhone 17 Pro, компанія Apple несподівано прибрала одну з ключових функцій, яка раніше була доступна в кількох поколіннях iPhone Pro. Згідно з офіційним документом підтримки Apple, режим нічної зйомки більше не працює під час фотографування у портретному режимі.
Детальніше