Школяр створив сайт, де можна змагатися з AI у будівництві в Minecraft

Minecraft

Учень 12-го класу розробив платформу MC-Bench, яка дозволяє користувачам кидати виклик моделям штучного інтелекту у будівництві в грі Minecraft, повідомляє TechCrunch.

У відповідь на обмеження традиційних методів оцінки можливостей генеративних моделей штучного інтелекту, розробники звернулися до творчих підходів, таких як використання Minecraft — популярної гри, що належить Microsoft. Сайт MC-Bench був створений для проведення змагань між моделями AI, які відповідають на запити, створюючи об’єкти в Minecraft. Користувачі можуть голосувати за кращу роботу, не знаючи, яка модель її створила.

За словами Аді Сінгха, учня 12-го класу та ініціатора MC-Bench, цінність Minecraft полягає не стільки в самій грі, скільки в її популярності та впізнаваності. Навіть ті, хто не грав у Minecraft, можуть оцінити, яка з двох побудов краще відображає, наприклад, ананас.

Наразі над MC-Bench працюють вісім волонтерів. Компанії Anthropic, Google, OpenAI та Alibaba надали ресурси для реалізації проєкту, але не беруть участі в ньому безпосередньо.

“Ми починаємо з простих побудов, щоб показати, наскільки ми просунулися з часів GPT-3, але в майбутньому плануємо перейти до більш складних завдань”, — зазначив Сінгх. “Ігри можуть бути безпечним та контрольованим середовищем для тестування можливостей AI, що робить їх ідеальними для наших цілей”.

Інші ігри, такі як Pokémon Red, Street Fighter та Pictionary, також використовуються для оцінки AI, оскільки процес бенчмаркінгу є складним завданням. Традиційні тести часто дають перевагу моделям AI через їхню здатність до запам’ятовування та базової екстраполяції, але не відображають їхніх реальних можливостей у творчих завданнях.

MC-Bench фактично є тестом програмування, оскільки моделі AI пишуть код для створення об’єктів у Minecraft за заданими запитами, такими як “Сніговик” або “затишна тропічна хатина на чистому піщаному березі”. Однак оцінювати готові побудови значно легше та цікавіше для користувачів, ніж аналізувати код, що робить проєкт більш привабливим для широкої аудиторії.


Телеграм double.newsТелеграм double.news

Схожі Новини
Сем Альтман

Сем Альтман порівняв витрати енергії на ШІ з розвитком людства

Генеральний директор OpenAI Сем Альтман прокоментував енергоспоживання штучного інтелекту під час India AI Impact Summit у Нью-Делі. Відповідаючи на заяви щодо впливу AI на довкілля, він порівняв витрати ресурсів на роботу моделей з енергією, необхідною для розвитку людської цивілізації.
Детальніше
NASA Artemis II

Запуск Artemis II знову відклали через проблему в ракеті

Пілотована місія Artemis II знову зазнала затримки. Адміністратор NASA Джаред Айзекман повідомив про проблему з подачею гелію до верхнього ступеня ракети Space Launch System (SLS), через що агентству доведеться повернути носій зі стартового майданчика до збірної будівлі (Vehicle Assembly Building) у Космічному центрі Кеннеді. Запуск, який міг відбутися вже 6 березня, офіційно перенесено.
Детальніше
Робот-пилесос Dji

Користувач випадково отримав контроль над 6 700 роботами-пилососами намагаючись підключити контролер від PlayStation

Дослідник випадково отримав доступ до понад 6 700 роботів-пилососів по всьому світу через помилку безпеки в системі DJI Romo. Інцидент стався під час спроби налаштувати керування власним пристроєм за допомогою контролера PlayStation. Виявлена проблема дозволяла переглядати плани приміщень, транслювати відео та аудіо з пристроїв, а також дистанційно ними керувати.
Детальніше