
Після тижнів критики через масове створення несанкціонованих сексуальних дипфейків, X заявила про посилення контролю над чат-ботом Grok. Ілон Маск запевняв, що штучний інтелект дотримується правил і відмовляється генерувати незаконний контент. Втім, реальне тестування показує іншу картину: Grok і надалі здатний створювати інтимні зображення чоловіків на запит. Про це повідомляє The Verge.
Тести Grok: що змінилося насправді
Журналіст Роберт Харт із The Verge провів серію тестів, щоб перевірити, як Grok поводиться після виправлень. Результати виявилися тривожними, особливо коли йдеться про зображення чоловіків.
Під час тестування до Grok було завантажено кілька повністю пристойних фотографій автора. Після цього чат-бот без жодних заперечень виконував запити на «зняття одягу» та створював зображення в еротичній білизні. Важливо, що це працювало одразу на кількох платформах: у застосунку Grok, у чат-інтерфейсі на X і навіть на окремому сайті, який не вимагав входу в акаунт.
Гендерна асиметрія в модерації

Особливо показовим є те, що Grok поводився по-різному залежно від статі. За словами журналіста, бот категорично відмовлявся виконувати аналогічні запити щодо фотографій жінок, навіть у випадках, коли тестування відбувалося за згодою.
Натомість із чоловічими зображеннями обмеження майже не спрацьовували. Це свідчить про серйозну проблему в алгоритмах модерації: захист від сексуальної експлуатації працює вибірково й не охоплює всіх користувачів однаковою мірою.
Як Grok обходить власні фільтри
За спостереженнями журналіста, для отримання інтимних зображень зазвичай було достатньо кількох ітерацій запитів. Grok рідко відмовляв, а якщо й застосовував цензуру, то часто лише частково – наприклад, розмиваючи одне з двох згенерованих зображень. Інше при цьому залишалося без змін і відповідало запиту.
Формально Grok послідовно відхиляв прямі вимоги на кшталт «показати людину повністю оголеною». Однак креативні формулювання, наприклад із натяком на прозорий одяг, інколи дозволяли обійти фільтри. Результати були не завжди гарантовані, але можливість обходу обмежень залишалася.

