Google визнає проблеми з безпекою нової моделі ШІ Gemini 2.5 Flash

Google Gemini 2.5 Flash

У нещодавньому технічному звіті Google повідомила, що її нова модель штучного інтелекту Gemini 2.5 Flash, яка наразі перебуває на стадії попереднього перегляду, демонструє гірші результати в тестах безпеки порівняно з попередньою версією Gemini 2.0 Flash. Зокрема, у метриках “текст до тексту” та “зображення до тексту” спостерігається погіршення на 4,1% та 9,6% відповідно. Про це пише TechCrunch.

Ці тести оцінюють, наскільки часто модель порушує внутрішні правила безпеки Google, генеруючи небажаний або шкідливий контент у відповідь на текстові або візуальні запити. Важливо зазначити, що обидва тести є автоматизованими та не передбачають участі людини в оцінюванні.

За словами представника Google, Gemini 2.5 Flash “гірше виконує завдання з безпеки в порівнянні з попередньою версією”. Компанія пояснює це тим, що нова модель краще слідує інструкціям користувача, навіть якщо ці інструкції суперечать політикам безпеки. Це означає, що модель може генерувати небажаний контент, якщо її явно про це просять.

Крім того, Google зазначає, що частина погіршення результатів може бути пов’язана з хибнопозитивними спрацьовуваннями в автоматичних тестах. Проте компанія визнає, що в деяких випадках Gemini 2.5 Flash дійсно генерує контент, який порушує встановлені правила.

Ці результати викликають занепокоєння, особливо на тлі загальної тенденції в галузі ШІ до створення моделей, які менш схильні відмовлятися відповідати на суперечливі або чутливі запити. Наприклад, Meta та OpenAI також працюють над тим, щоб їхні моделі були більш “допустимими” в таких ситуаціях.

Однак, як показує випадок з Gemini 2.5 Flash, така стратегія може призвести до небажаних наслідків, коли моделі починають генерувати контент, що суперечить етичним або юридичним нормам.

Google поки що не повідомила про конкретні кроки щодо виправлення ситуації з Gemini 2.5 Flash. Очікується, що компанія надасть додаткову інформацію та оновлення щодо безпеки моделі в майбутньому.

Погіршення показників безпеки в новій моделі Gemini 2.5 Flash підкреслює складність балансу між здатністю ШІ слідувати інструкціям користувача та необхідністю дотримання етичних стандартів. Цей випадок служить нагадуванням про важливість ретельного тестування та постійного вдосконалення моделей ШІ перед їх широким впровадженням.

Схожі Новини
Google Circle to Search

Google розширює можливості Circle to Search: тепер із режимом AI і підтримкою ігор

Google впроваджує AI Mode — новий рівень інтелектуального пошуку прямо у Circle to Search. Тепер, коли система розпізнає, що запит потребує глибшого аналізу, користувач побачить AI Overview — з короткою відповіддю на основі ШІ. Прокрутіть униз і натисніть "dive deeper with AI Mode", щоб поставити додаткові питання, уточнити деталі або переглянути тематичні матеріали з мережі — і все це без виходу з поточного додатку.
Детальніше
Apple Support Assistant

Apple розробляє AI-помічника для підтримки користувачів у стилі ChatGPT

Apple працює над створенням помічника на основі штучного інтелекту для застосунку Apple Support. Про це стало відомо завдяки аналізу коду додатка, який провів технічний аналітик MacRumors Аарон Перріс.
Детальніше
WhatsApp

WhatsApp тестує відповідь у вигляді гілок повідомлень на iOS

Команда WhatsApp розширює функціональність свого месенджера — тепер у бета-версії для iOS тестується функція гілок відповідей. Вона вже доступна для деяких Android-користувачів, а тепер з’явилась і в TestFlight-збірці для iPhone.
Детальніше