
У рамках співпраці між Anthropic та Mozilla для аудиту безпеки використовували модель Claude Opus 4.6. Протягом двох тижнів система аналізувала кодову базу Firefox у пошуках потенційних помилок і слабких місць.
Робота почалася з перевірки JavaScript-рушія браузера, який відповідає за виконання вебскриптів. Після цього аналіз поширили на інші компоненти проєкту.
Firefox було обрано для дослідження не випадково. За словами фахівців, цей браузер має велику й складну кодову базу, є одним із найбільш перевірених відкритих програмних проєктів і водночас демонструє високі стандарти безпеки. Саме поєднання масштабності, відкритого коду та зрілої системи тестування зробило Firefox зручним середовищем для оцінки того, наскільки ефективно сучасні моделі штучного інтелекту можуть виявляти програмні вразливості.
Які проблеми вдалося знайти
Під час аудиту дослідники виявили 22 окремі вразливості у браузері Firefox, з яких 14 отримали класифікацію високого рівня критичності. Це означає, що такі помилки потенційно можуть створювати серйозні ризики для безпеки користувачів. Решта вразливостей належать до категорії середньої або нижчої небезпеки. Більшість знайдених проблем уже усунуто в оновленні Firefox 148, тоді як кілька виправлень, за словами розробників, з’являться у наступному релізі браузера.

Подібні вразливості можуть впливати на різні аспекти роботи браузера – від обробки JavaScript до управління пам’яттю. У деяких випадках такі помилки потенційно дозволяють виконувати шкідливий код або порушувати стабільність роботи програм.
Mozilla традиційно випускає патчі для безпеки у рамках регулярних оновлень, тому користувачам рекомендується завжди встановлювати найновішу версію браузера.
Чи здатен ШІ створювати експлойти
Попри успіх у пошуку вразливостей, дослідники зіткнулися з обмеженнями штучного інтелекту під час наступного етапу – створення демонстраційних експлойтів.
Команда витратила приблизно 4 000 доларів у вигляді API-кредитів, намагаючись змусити модель створити робочі приклади експлуатації знайдених багів.
Результати виявилися обмеженими: лише 2 із 22 вразливостей вдалося перетворити на робочі демонстраційні експлойти, тоді як більшість знайдених проблем залишилися на рівні теоретичних сценаріїв. Це свідчить, що сучасні мовні моделі значно ефективніше виконують аналіз програмного коду та пошук потенційних помилок, ніж створюють складні інструменти для їх практичної експлуатації.

