Штучний інтелект все ще погано справляється з пошуком багів — дослідження Microsoft

Консоль з кодом

Попри стрімкий розвиток ШІ, нове дослідження Microsoft показало — штучний інтелект все ще слабо справляється з реальними задачами зневадження коду.

Про це пише ArsTechnica.

Штучний інтелект активно використовується в автоматизації написання коду, однак з відлагодженням (debugging) у нього великі проблеми. Про це свідчить нове дослідження Microsoft Research, в якому протестували дев’ять провідних мовних моделей.

Для перевірки використовували SWE-bench Lite — бенчмарк із 300 реальних задач на зневадження. Найкращий результат показала модель Claude 3.7 Sonnet від Anthropic, яка змогла розв’язати лише 48,4% задач. Для порівняння: GPT-4 від OpenAI (у версії o1) справилась з 30,2%, а o3-mini — з 22,1%.

У Microsoft виділили дві основні причини, чому моделі ШІ дають слабкий результат:

1. Не вміють користуватись інструментами. Багато моделей не можуть ефективно застосовувати інструменти для дебагу, зокрема Python-налагоджувачі, або не знають, коли їх слід використовувати.

2. Нестача даних про реальні сценарії дебагу. Моделі не мають доступу до логів або сесій реальних розробників, де видно послідовність дій при пошуку та виправленні помилок.

Дослідники вважають, що ситуацію можна покращити, якщо навчати моделі на спеціалізованих логах, які фіксують роботу програміста з дебагером у режимі реального часу. Це допоможе ШІ моделювати покроковий процес пошуку помилок.

Попри всі труднощі, ШІ вже сьогодні корисний при виявленні простих багів. Але для складних випадків, де потрібне розуміння контексту й креативність, участь людини залишається критичною.

Точну ціну впровадження моделей типу Claude чи GPT в робочий процес залежить від провайдера, але базова інтеграція API може коштувати від 50 до 200 доларів на місяць залежно від обсягів запитів. В корпоративних рішеннях — ще дорожче.


Телеграм double.newsТелеграм double.news

Схожі Новини
MacBook Pro

Нові MacBook Pro з чипами M5 можуть вийти разом із macOS 26.3

Apple готується до оновлення лінійки професійних ноутбуків. За даними інсайдерів, нові MacBook Pro з чипами M5 Pro та M5 Max можуть бути представлені одночасно з релізом macOS 26.3, який очікується вже у лютому 2026 року.
Детальніше
YouTube

YouTube обмежив фонове відтворення у сторонніх браузерах без Premium

Користувачі YouTube масово повідомляють про проблеми з фоновим відтворенням відео в мобільних браузерах, відмінних від Chrome. Як з’ясувалося, це не збій, а цілеспрямована зміна політики сервісу: Google офіційно підтвердила, що функція фонового програвання відтепер доступна лише для передплатників YouTube Premium.
Детальніше
NASA з’ясувала, що відбувається за мілісекунди до зіткнення нейтронних зір

NASA з’ясувала, що відбувається за мілісекунди до зіткнення нейтронних зір

Вчені NASA отримали найдетальнішу на сьогодні картину процесів, які відбуваються за лічені мілісекунди до злиття нейтронних зір - одних із найекстремальніших об’єктів у Всесвіті. Нові суперкомп’ютерні симуляції показують, що безпосередньо перед зіткненням навколо зір виникає хаотична взаємодія надпотужних магнітних полів, здатна породжувати випромінювання, яке майбутні телескопи зможуть зафіксувати.
Детальніше