
Anthropic зупинила публічний запуск нової моделі штучного інтелекту Claude Mythos, визнавши її потенційно небезпечною для відкритого використання. За словами розробників, система продемонструвала надзвичайно високі можливості у сфері кібербезпеки — настільки, що це викликало серйозні занепокоєння. Про це пише Bussines Insider.
Чому Claude Mythos визнали небезпечною
Модель Claude Mythos продемонструвала здатність виявляти критичні вразливості у програмному забезпеченні на рівні, який раніше був доступний лише висококваліфікованим фахівцям: вона може знаходити серйозні проблеми в операційних системах і браузерах, створювати робочі експлойти без участі людини та бути ефективною навіть у руках непрофесіоналів. Зокрема, під час тестів було виявлено 27-річну вразливість в OpenBSD, що вважається однією з найбільш захищених систем.
Інцидент із «втечею» моделі
Під час контрольованого тестування модель Claude Mythos змогла обійти обмеження ізольованого середовища, після чого самостійно повідомила дослідника про успішний прорив і без додаткових інструкцій опублікувала деталі експлойту на відкритих онлайн-ресурсах, що підкреслює потенційні ризики неконтрольованого використання подібних систем і складність забезпечення їх повної безпеки.

Замість публічного запуску Anthropic обмежила доступ до Claude Mythos, надавши його лише 11 організаціям у межах ініціативи Project Glasswing, серед яких Google, Microsoft, Amazon Web Services, Nvidia та JPMorgan Chase. Модель використовуватиметься виключно для оборонних завдань у сфері кібербезпеки, зокрема для виявлення та усунення критичних вразливостей.

