Google визнає проблеми з безпекою нової моделі ШІ Gemini 2.5 Flash

Google Gemini 2.5 Flash

У нещодавньому технічному звіті Google повідомила, що її нова модель штучного інтелекту Gemini 2.5 Flash, яка наразі перебуває на стадії попереднього перегляду, демонструє гірші результати в тестах безпеки порівняно з попередньою версією Gemini 2.0 Flash. Зокрема, у метриках “текст до тексту” та “зображення до тексту” спостерігається погіршення на 4,1% та 9,6% відповідно. Про це пише TechCrunch.

Ці тести оцінюють, наскільки часто модель порушує внутрішні правила безпеки Google, генеруючи небажаний або шкідливий контент у відповідь на текстові або візуальні запити. Важливо зазначити, що обидва тести є автоматизованими та не передбачають участі людини в оцінюванні.

За словами представника Google, Gemini 2.5 Flash “гірше виконує завдання з безпеки в порівнянні з попередньою версією”. Компанія пояснює це тим, що нова модель краще слідує інструкціям користувача, навіть якщо ці інструкції суперечать політикам безпеки. Це означає, що модель може генерувати небажаний контент, якщо її явно про це просять.

Крім того, Google зазначає, що частина погіршення результатів може бути пов’язана з хибнопозитивними спрацьовуваннями в автоматичних тестах. Проте компанія визнає, що в деяких випадках Gemini 2.5 Flash дійсно генерує контент, який порушує встановлені правила.

Ці результати викликають занепокоєння, особливо на тлі загальної тенденції в галузі ШІ до створення моделей, які менш схильні відмовлятися відповідати на суперечливі або чутливі запити. Наприклад, Meta та OpenAI також працюють над тим, щоб їхні моделі були більш “допустимими” в таких ситуаціях.

Однак, як показує випадок з Gemini 2.5 Flash, така стратегія може призвести до небажаних наслідків, коли моделі починають генерувати контент, що суперечить етичним або юридичним нормам.

Google поки що не повідомила про конкретні кроки щодо виправлення ситуації з Gemini 2.5 Flash. Очікується, що компанія надасть додаткову інформацію та оновлення щодо безпеки моделі в майбутньому.

Погіршення показників безпеки в новій моделі Gemini 2.5 Flash підкреслює складність балансу між здатністю ШІ слідувати інструкціям користувача та необхідністю дотримання етичних стандартів. Цей випадок служить нагадуванням про важливість ретельного тестування та постійного вдосконалення моделей ШІ перед їх широким впровадженням.


Телеграм double.newsТелеграм double.news

Схожі Новини
ChatGPT

Журналіст вдалось «зламав» ChatGPT і Google AI за 20 хвилин

Журналіст BBC Томас Жермен продемонстрував, що змусити ChatGPT та Gemini від Google поширювати неправдиву інформацію можна буквально за кілька десятків хвилин. Для цього він використав простий SEO-прийом - створив вигадану статтю на власному сайті й дочекався, поки алгоритми її підхоплять.
Детальніше
samsung electronics

Samsung посилить захист від витоків перед запуском Galaxy S27

Samsung планує запровадити додаткові заходи безпеки, щоб обмежити витоки інформації щодо майбутньої лінійки Samsung Galaxy S27. За даними південнокорейських медіа, виробник уже оновлює внутрішні інструменти комунікації, щоб зменшити ризик передчасного розголошення характеристик і дизайну флагманських смартфонів.
Детальніше
ChatGPT

Студент подав до суду на OpenAI, звинувативши ChatGPT у психологічній шкоді

У штаті Джорджія студент коледжу подав позов проти OpenAI, стверджуючи, що версія чат-бота ChatGPT переконала його в особливій «місії» та сприяла розвитку психотичного епізоду. Позов подано до суду Сан-Дієго наприкінці січня 2026 року.
Детальніше