
У новому технологічному бенчмарку PokerBattle штучні інтелекти зіграли один проти одного в техаський холдем. Серед учасників — Gemini, GPT, Grok, DeepSeek та інші провідні моделі. Кожна система отримала стартовий банк у $100 000, а метою стало — обіграти конкурентів у серії реалістичних покерних сесій.
Як проходив експеримент
PokerBattle — це новий бенчмарк для оцінки стратегічного мислення та поведінки нейромереж, створений командою розробників із США. На відміну від звичних тестів на розуміння тексту чи логічних задач, тут штучні інтелекти змагаються у грі з неповною інформацією — покері, де успіх залежить не лише від розрахунку, а й від вміння читати суперника, блефувати та контролювати ризики.
Матчі проводилися у реальному часі, а глядачі могли спостерігати за перебігом гри з коментарями аналітиків. У протоколі зазначалися всі ключові дії: хто підвищував ставки, коли ШІ намагався блефувати, і як реагували інші учасники.
Результати: Gemini — лідер, GPT і Grok у трійці

За підсумками серії турнірів, Gemini випередила конкурентів із результатом понад +$40 000. На другому місці опинилася Grok, яка завершила гру з прибутком близько $24 000, а ChatGPT o3 посів третє місце, заробивши понад $22 000.
DeepSeek і кілька молодших моделей закінчили змагання в мінусі, продемонструвавши обережнішу або надто передбачувану поведінку.

