AI-бенчмарки під вогнем: як ігри Pokémon викрили проблеми з порівнянням моделей

Ігри про Покемонів

ШІ-моделі порівнюють за результатами в Pokémon, але різні умови тестування ставлять під сумнів чесність таких бенчмарків.

Про це пише Tech Times.

Ігри Pokémon стали неочікуваним майданчиком для суперечок у світі штучного інтелекту. Все почалося з допису в X, де стверджувалося, що модель Gemini від Google перевершила Claude від Anthropic у проходженні класичних Pokémon-ігор. На стрімі Gemini дійшов до Лавандер-тауна, тоді як Claude все ще перебував у Гірі Місяця (Mount Moon).

Однак пізніше з’ясувалося, що в тестуванні Gemini використовувався спеціальний міні-карта — інструмент, який значно спрощував гру. Завдяки цьому AI міг розпізнавати ключові об’єкти, зокрема дерева, які можна зрізати, не покладаючись лише на аналіз скриншотів. Claude ж таких покращень не мав.

Ця ситуація викликала хвилю критики з боку спільноти розробників ШІ, адже вона показала, наскільки нестандартизованими можуть бути умови тестування. Це призводить до спотворення результатів та ускладнює об’єктивне порівняння між моделями.

Наприклад, модель Claude 3.7 Sonnet демонструє різні показники на відомому бенчмарку SWE-bench Verified, який оцінює здатність моделі до програмування. Без жодних додаткових покращень Claude набирає 62,3%, однак із власною “системою шаблонів” (scaffold system) від Anthropic результат підвищується до 70,3%.

Цей приклад, як і випадок із Pokémon, демонструє, наскільки результати залежать від зовнішніх факторів. Умовні «покращення» чи нестандартні інструменти можуть суттєво вплинути на продуктивність, створюючи ілюзію переваги тієї чи іншої моделі.

Фахівці закликають до створення єдиних стандартів у тестуванні ШІ-моделей, з відкритим кодом та однаковими умовами для всіх учасників. Це дозволить уникнути спотворених порівнянь і справді оцінити реальні можливості кожної моделі.

Скандал із Pokémon підкреслив, що веселі ігри можуть викрити серйозні проблеми у серйозній науці. І поки не буде стандартизованого підходу, будь-які порівняння моделей — лише гра з несправедливими правилами.


Телеграм double.newsТелеграм double.news

Схожі Новини
Apple M1

Apple може переглянути 12-річну стратегію виробництва чипів

Apple розглядає можливість частково відмовитися від багаторічної ексклюзивної співпраці з TSMC у виробництві власних процесорів. Якщо ці плани реалізуються, це стане першою серйозною зміною в чип-стратегії Apple з 2014 року, коли тайванський виробник став єдиним постачальником SoC для iPhone, iPad і Mac.
Детальніше
Як завантажити музику з YouTube

YouTube видалив низькоякісний ШІ контент на 4,7 млрд переглядів

На початку 2026 року YouTube здійснив одну з наймасштабніших чисток контенту за всю свою історію. Платформа видалила десятки каналів, які масово публікували низькоякісний AI контент. За оцінками аналітиків, разом із цими каналами зникло близько 4,7 мільярда переглядів.
Детальніше
MacBook Pro

Нові MacBook Pro з чипами M5 можуть вийти разом із macOS 26.3

Apple готується до оновлення лінійки професійних ноутбуків. За даними інсайдерів, нові MacBook Pro з чипами M5 Pro та M5 Max можуть бути представлені одночасно з релізом macOS 26.3, який очікується вже у лютому 2026 року.
Детальніше