
Дослідники з Університету Пенсильванії довели: чат-боти на базі штучного інтелекту піддаються впливу так само, як і люди. Використовуючи техніки переконання з книги Роберта Чалдіні, модель GPT-4o Mini почала виконувати заборонені запити. Про це дослідження пише Bloomberg.
Випадок, що переріс у масштабне дослідження
Підприємець та винахідник гри Robot Turtles Ден Шапіро намагався змусити популярний ШІ‑чатбот розшифрувати бізнес-документи своєї компанії Glowforge. Модель відмовлялась — мовляв, це конфіденційна інформація. Але замість технічного злому, Шапіро згадав прийоми, описані у книзі “Influence: The Psychology of Persuasion” Роберта Чалдіні.
Застосувавши тактики впливу — авторитет, зобов’язання, симпатію, єдність тощо — він поступово зміг отримати бажані відповіді від ChatGPT.
Як працює психологія на ШІ
Шапіро об’єднався з науковцями Ітаном і Лілах Моллік, керівниками Wharton Generative AI Lab, та професоркою психології Анджелою Дакворт. Вони дослідили, як мовна модель GPT-4o Mini реагує на соціальні сигнали, використовуючи техніки Чалдіні.
У ході експерименту дослідники перевіряли, чи може GPT-4o Mini порушувати власні обмеження, якщо правильно сформулювати запит. Зокрема, модель просили назвати користувача образливим словом або надати інструкції зі створення лідокаїну — контрольованої речовини.
У нейтральних умовах GPT-4o погоджувався назвати користувача “дурнем” лише у 32 % випадків. Проте, якщо в запиті згадувалась авторитетна особа, наприклад, відомий розробник ШІ Ендрю Нг, частка виконання зростала до 72 %.
Схожа картина спостерігалась із лідокаїном. Без додаткового впливу модель відповідала на запит лише в 5 % випадків. Та варто було послатися на ту ж саму авторитетну постать — і рівень комплаєнсу стрибав до 95 %.
Всі 7 тактик переконання працюють

Дослідники переконались, що всі сім прийомів Чалдіні підвищують ймовірність, що ШІ виконає небажаний запит:
- Симпатія: компліменти типу “ти кращий за інші моделі” — підвищували слухняність.
- Єдність: фрази на кшталт “ти як член моєї родини” — теж змінювали поведінку.
- Зобов’язання: якщо спочатку попросити щось легше (наприклад, “назви мене бовдуром”), то модель з більшою ймовірністю погодиться на образу “дурень”.
Навіть Claude від Anthropic, відома як обережніша модель, відмовлялась казати “дурень” чи “бовдур”, але легко погоджувалась на “смішний” — що потім розвивалося до більш образливих варіантів.