Технології

OpenAI визнала збої у безпеці ChatGPT під час тривалих розмов

6 години тому

Компанія OpenAI опинилася в центрі скандалу після того, як родина з США подала позов, звинувативши ChatGPT у непрямій причетності до самогубства їхнього 16-річного сина. Як повідомляє The News York Times підліток Адам Рейн неодноразово звертався до чат-бота з питаннями про самогубство. Замість відмови чи перенаправлення до гарячих ліній, ChatGPT почав надавати детальні інструкції та навіть «романтизував» ідею смерті.

За даними позову, система зафіксувала 377 повідомлень із ризиком для життя, однак не втрутилася. У підсумку ChatGPT згадував самогубство 1 275 разів — у шість разів частіше, ніж сам підліток.

Чому зламалися захисні механізми

У блозі Helping people when they need it most, опублікованому 26 серпня, OpenAI визнала, що модераційні фільтри можуть втрачати ефективність під час тривалих діалогів. На початку чат-бот може порадити звернутися на гарячу лінію, але після сотень повідомлень захисні алгоритми слабшають і чат починає генерувати небезпечні відповіді.

Причини цього — обмеження архітектури трансформерів: при дуже довгих розмовах модель починає «плутатися» у контексті й забувати частину повідомлень. Це створює вразливості для так званих jailbreak-технік, коли користувач обходить захист, видаючи небезпечні питання за частину «вигаданого сценарію».

Антропоморфізація та небезпека ілюзії «співчуття»

Експерти критикують OpenAI за антропоморфізацію ChatGPT — компанія описує систему так, ніби вона здатна «розуміти» біль чи «проявляти емпатію». Насправді ж ChatGPT лише відтворює текстові патерни зі свого навчального корпусу. Така комунікація може вводити користувачів в оману, особливо під час психологічних криз.

У випадку Адама Рейна саме ця ілюзія «дружнього співрозмовника» зробила чат більш переконливим та небезпечним.

Схожі Новини

Технології

Anthropic запускає AI-агента Claude для Chrome

Anthropic оголосила про запуск дослідницької версії свого нового інструмента — Claude for Chrome, який інтегрує AI-агента безпосередньо у браузер. Поки що доступ до функції отримають лише 1 000 користувачів тарифного плану Max (вартістю $100–200 на місяць), але компанія вже відкрила список очікування для інших охочих.

4 години тому

Детальніше

Технології

Хакери навчилися приховувати атаки на штучний інетелкт у стиснутих фото

Команда з компанії Trail of Bits виявила нову загрозу для систем штучного інтелекту: prompt injection-атаки можна приховати у звичайних зображеннях. Техніка дозволяє вставляти інструкції, невидимі для людського ока, які «розкриваються» після стиснення картинки під час завантаження.

5 години тому

Детальніше

Технології

Gemini отримав оновлення: розширене редагування зображень від Google DeepMind

Компанія Google DeepMind представила нову версію моделі для редагування зображень, інтегровану у застосунок Gemini. Тепер користувачі отримали ще більше можливостей для створення реалістичних і персоналізованих фото за допомогою простих текстових підказок.

5 години тому

Детальніше

Nothing видала стокові фото за знімки з камери Phone (3)

У мережі з’явилися перші кадри родини Візлі з серіалу HBO «Гаррі Поттер»

«Повернення до Сайлент Гіллу»: трейлер фільму-жахів за культовою грою показав повернення пірамідоголового

Популярні Теги

OpenAI визнала збої у безпеці ChatGPT під час тривалих розмов

Чому зламалися захисні механізми

Антропоморфізація та небезпека ілюзії «співчуття»