Штучний інтелект не вміє визначати час за аналоговим годинником: нове дослідження виявило слабкість нейромереж

Годинника

Попри стрімкий розвиток штучного інтелекту, виявлено сферу, з якою нейромережі досі не справляються — це зчитування часу зі звичайних стрілочних годинників. У тесті ClockBench сучасні мовні моделі продемонстрували вкрай низьку точність, показавши результати, які суттєво відстають від людських можливостей.

ClockBench: тест на «аналогову грамотність» для ШІ

ClockBench — спеціалізований бенчмарк, створений для оцінки здатності моделей штучного інтелекту розпізнавати час за аналоговими циферблатами. Тест охоплює різні типи годинників, кути нахилу, варіанти оформлення та навіть частково закриті елементи циферблата.

Результати: розрив між людьми та ШІ

У дослідженні взяли участь кілька провідних мовних моделей:

  • Gemini 2.5 Pro (від Google): лише 13,3% правильних відповідей;
  • Моделі OpenAI (GPT-4, GPT-3.5): не перевищили 8,4% точності;
  • Середній результат людини: 89%.
ClockBench

Різниця в точності становить майже 10-кратне відставання ШІ від людських користувачів. Це свідчить про те, що сучасні мовні моделі мають суттєві труднощі з базовими візуальними завданнями, які не викликають проблем у людей.


Телеграм double.newsТелеграм double.news

Схожі Новини
PlayStation

Sony не планує переносити реліз PlayStation 6 через подорожчання пам’яті

Нова консоль PlayStation 6, за попередніми даними, вийде у запланований період - наприкінці 2027 або на початку 2028 року. Попри значне зростання вартості оперативної пам’яті, Sony не планує суттєво переносити реліз.
Детальніше
Anthropic

Anthropic оскаржить у суді рішення Пентагону щодо AI-технологій Claude

Anthropic, оскаржуватиме рішення Міністерства оборони США, яке визнало її ризиком для ланцюга постачання. Керівництво стартапу заявляє, що дії Пентагону не мають достатнього юридичного обґрунтування.
Детальніше
Apple M5 Pro, Apple M5 Max

Apple M5 Max встановив рекорд продуктивності у першому тесті Geekbench

Новий процесор Apple M5 Max, представлений разом із оновленими MacBook Pro, уже демонструє рекордні результати продуктивності. Перші дані бенчмарку Geekbench 6 свідчать, що чип перевершує не лише попередні покоління Apple Silicon, а й усі сучасні споживчі процесори для ПК.
Детальніше