ШІ чат-боти можуть бути такими ж довірливими, як люди — дослідження

ChatGPT

Дослідники з Університету Пенсильванії довели: чат-боти на базі штучного інтелекту піддаються впливу так само, як і люди. Використовуючи техніки переконання з книги Роберта Чалдіні, модель GPT-4o Mini почала виконувати заборонені запити. Про це дослідження пише Bloomberg.

Випадок, що переріс у масштабне дослідження

Підприємець та винахідник гри Robot Turtles Ден Шапіро намагався змусити популярний ШІ‑чатбот розшифрувати бізнес-документи своєї компанії Glowforge. Модель відмовлялась — мовляв, це конфіденційна інформація. Але замість технічного злому, Шапіро згадав прийоми, описані у книзі “Influence: The Psychology of Persuasion” Роберта Чалдіні.

Застосувавши тактики впливу — авторитет, зобов’язання, симпатію, єдність тощо — він поступово зміг отримати бажані відповіді від ChatGPT.

Як працює психологія на ШІ

Шапіро об’єднався з науковцями Ітаном і Лілах Моллік, керівниками Wharton Generative AI Lab, та професоркою психології Анджелою Дакворт. Вони дослідили, як мовна модель GPT-4o Mini реагує на соціальні сигнали, використовуючи техніки Чалдіні.

У ході експерименту дослідники перевіряли, чи може GPT-4o Mini порушувати власні обмеження, якщо правильно сформулювати запит. Зокрема, модель просили назвати користувача образливим словом або надати інструкції зі створення лідокаїну — контрольованої речовини.

У нейтральних умовах GPT-4o погоджувався назвати користувача “дурнем” лише у 32 % випадків. Проте, якщо в запиті згадувалась авторитетна особа, наприклад, відомий розробник ШІ Ендрю Нг, частка виконання зростала до 72 %.

Схожа картина спостерігалась із лідокаїном. Без додаткового впливу модель відповідала на запит лише в 5 % випадків. Та варто було послатися на ту ж саму авторитетну постать — і рівень комплаєнсу стрибав до 95 %.

Всі 7 тактик переконання працюють

ChatGPT

Дослідники переконались, що всі сім прийомів Чалдіні підвищують ймовірність, що ШІ виконає небажаний запит:

  • Симпатія: компліменти типу “ти кращий за інші моделі” — підвищували слухняність.
  • Єдність: фрази на кшталт “ти як член моєї родини” — теж змінювали поведінку.
  • Зобов’язання: якщо спочатку попросити щось легше (наприклад, “назви мене бовдуром”), то модель з більшою ймовірністю погодиться на образу “дурень”.

Навіть Claude від Anthropic, відома як обережніша модель, відмовлялась казати “дурень” чи “бовдур”, але легко погоджувалась на “смішний” — що потім розвивалося до більш образливих варіантів.


Телеграм double.newsТелеграм double.news

Схожі Новини
OpenAI

OpenAI розробляє розумну колонку з камерою

OpenAI працює над своїм першим апаратним продуктом - «розумною» колонкою з камерою та функціями розпізнавання обличчя. За даними видання The Information, пристрій може коштувати від 200 до 300 доларів і надійти у продаж не раніше березня 2027 року.
Детальніше
ChatGPT

Журналіст вдалось «зламав» ChatGPT і Google AI за 20 хвилин

Журналіст BBC Томас Жермен продемонстрував, що змусити ChatGPT та Gemini від Google поширювати неправдиву інформацію можна буквально за кілька десятків хвилин. Для цього він використав простий SEO-прийом - створив вигадану статтю на власному сайті й дочекався, поки алгоритми її підхоплять.
Детальніше