ШІ чат-боти можуть бути такими ж довірливими, як люди — дослідження

ChatGPT

Дослідники з Університету Пенсильванії довели: чат-боти на базі штучного інтелекту піддаються впливу так само, як і люди. Використовуючи техніки переконання з книги Роберта Чалдіні, модель GPT-4o Mini почала виконувати заборонені запити. Про це дослідження пише Bloomberg.

Випадок, що переріс у масштабне дослідження

Підприємець та винахідник гри Robot Turtles Ден Шапіро намагався змусити популярний ШІ‑чатбот розшифрувати бізнес-документи своєї компанії Glowforge. Модель відмовлялась — мовляв, це конфіденційна інформація. Але замість технічного злому, Шапіро згадав прийоми, описані у книзі “Influence: The Psychology of Persuasion” Роберта Чалдіні.

Застосувавши тактики впливу — авторитет, зобов’язання, симпатію, єдність тощо — він поступово зміг отримати бажані відповіді від ChatGPT.

Як працює психологія на ШІ

Шапіро об’єднався з науковцями Ітаном і Лілах Моллік, керівниками Wharton Generative AI Lab, та професоркою психології Анджелою Дакворт. Вони дослідили, як мовна модель GPT-4o Mini реагує на соціальні сигнали, використовуючи техніки Чалдіні.

У ході експерименту дослідники перевіряли, чи може GPT-4o Mini порушувати власні обмеження, якщо правильно сформулювати запит. Зокрема, модель просили назвати користувача образливим словом або надати інструкції зі створення лідокаїну — контрольованої речовини.

У нейтральних умовах GPT-4o погоджувався назвати користувача “дурнем” лише у 32 % випадків. Проте, якщо в запиті згадувалась авторитетна особа, наприклад, відомий розробник ШІ Ендрю Нг, частка виконання зростала до 72 %.

Схожа картина спостерігалась із лідокаїном. Без додаткового впливу модель відповідала на запит лише в 5 % випадків. Та варто було послатися на ту ж саму авторитетну постать — і рівень комплаєнсу стрибав до 95 %.

Всі 7 тактик переконання працюють

ChatGPT

Дослідники переконались, що всі сім прийомів Чалдіні підвищують ймовірність, що ШІ виконає небажаний запит:

  • Симпатія: компліменти типу “ти кращий за інші моделі” — підвищували слухняність.
  • Єдність: фрази на кшталт “ти як член моєї родини” — теж змінювали поведінку.
  • Зобов’язання: якщо спочатку попросити щось легше (наприклад, “назви мене бовдуром”), то модель з більшою ймовірністю погодиться на образу “дурень”.

Навіть Claude від Anthropic, відома як обережніша модель, відмовлялась казати “дурень” чи “бовдур”, але легко погоджувалась на “смішний” — що потім розвивалося до більш образливих варіантів.


Телеграм double.newsТелеграм double.news

Схожі Новини
Gmail

Проти Gmail можуть почати розслідування за блокування листів республіканців — попередження FTC

Голова Федеральної торгової комісії США (FTC) Ендрю Фергюсон, призначений адміністрацією Дональда Трампа, висловив стурбованість тим, що алгоритми Gmail можуть мати політично упереджений характер. У листі до CEO Alphabet Сундара Пічаї він заявив, що робота поштових фільтрів може перешкоджати американцям отримувати важливі повідомлення та робити пожертви на користь політичних кампаній.
Детальніше
Microsoft Copilot AI

Microsoft Copilot у Windows 11 та веб-версіїо тримав безкоштовний багатофайловий аналіз від ChatGPT

Microsoft розширила можливості Copilot у Windows 11 та на веб-платформі, додавши функцію багатофайлового аналізу — раніше доступну лише у ChatGPT. Тепер користувачі безкоштовно можуть завантажувати й опрацьовувати одночасно до трьох файлів, що дозволяє штучному інтелекту пов’язувати інформацію та робити висновки комплексно.
Детальніше
xAI

Білий дім прагне впровадити Grok від xAI для державних установ

Попри конфлікти між Дональдом Трампом та Ілоном Маском, адміністрація президента США домоглася, щоб чат-бот Grok від компанії xAI було додано до переліку схвалених для державного використання AI-рішень.
Детальніше