AI-бенчмарки під вогнем: як ігри Pokémon викрили проблеми з порівнянням моделей

Ігри про Покемонів

ШІ-моделі порівнюють за результатами в Pokémon, але різні умови тестування ставлять під сумнів чесність таких бенчмарків.

Про це пише Tech Times.

Ігри Pokémon стали неочікуваним майданчиком для суперечок у світі штучного інтелекту. Все почалося з допису в X, де стверджувалося, що модель Gemini від Google перевершила Claude від Anthropic у проходженні класичних Pokémon-ігор. На стрімі Gemini дійшов до Лавандер-тауна, тоді як Claude все ще перебував у Гірі Місяця (Mount Moon).

Однак пізніше з’ясувалося, що в тестуванні Gemini використовувався спеціальний міні-карта — інструмент, який значно спрощував гру. Завдяки цьому AI міг розпізнавати ключові об’єкти, зокрема дерева, які можна зрізати, не покладаючись лише на аналіз скриншотів. Claude ж таких покращень не мав.

Ця ситуація викликала хвилю критики з боку спільноти розробників ШІ, адже вона показала, наскільки нестандартизованими можуть бути умови тестування. Це призводить до спотворення результатів та ускладнює об’єктивне порівняння між моделями.

Наприклад, модель Claude 3.7 Sonnet демонструє різні показники на відомому бенчмарку SWE-bench Verified, який оцінює здатність моделі до програмування. Без жодних додаткових покращень Claude набирає 62,3%, однак із власною “системою шаблонів” (scaffold system) від Anthropic результат підвищується до 70,3%.

Цей приклад, як і випадок із Pokémon, демонструє, наскільки результати залежать від зовнішніх факторів. Умовні «покращення» чи нестандартні інструменти можуть суттєво вплинути на продуктивність, створюючи ілюзію переваги тієї чи іншої моделі.

Фахівці закликають до створення єдиних стандартів у тестуванні ШІ-моделей, з відкритим кодом та однаковими умовами для всіх учасників. Це дозволить уникнути спотворених порівнянь і справді оцінити реальні можливості кожної моделі.

Скандал із Pokémon підкреслив, що веселі ігри можуть викрити серйозні проблеми у серйозній науці. І поки не буде стандартизованого підходу, будь-які порівняння моделей — лише гра з несправедливими правилами.


Телеграм double.newsТелеграм double.news

Схожі Новини
Steam

Steam дозволить додавати характеристики ПК до відгуків

Valve тестує нововведення у клієнті Steam, яке може зробити користувацькі відгуки значно інформативнішими. У бета-версії сервісу з’явилася можливість автоматично додавати характеристики комп’ютера до рецензії на гру.
Детальніше
Wifi роуетр

Через дефіцит пам’яті зростають ціни на роутери та ТВ-приставки

Світовий дефіцит пам’яті DRAM та зростання попиту з боку індустрії штучного інтелекту спричинили різке подорожчання модулів DDR4, що вже відображається на вартості роутерів і ТВ-приставок. За оцінками аналітиків Counterpoint Research, ціни на відповідну пам’ять зросли приблизно у сім разів, а її частка в собівартості обладнання збільшилася з близько 3% до майже 20%, що суттєво впливає на формування кінцевої ціни пристроїв для споживачів.
Детальніше

Sony запатентувала технологію, що дозволяє зменшити розмір ігор до 100 МБ

Sony запатентувала новий підхід до встановлення відеоігор, який потенційно може суттєво скоротити початковий розмір завантаження. Замість традиційних 100–300 ГБ користувачам пропонується інсталювати лише базовий пакет обсягом близько 100 МБ, тоді як решта ресурсів підвантажуватиметься під час гри через інтернет.
Детальніше