Технології

ШІ чат-боти можуть бути такими ж довірливими, як люди — дослідження

6 години тому

Дослідники з Університету Пенсильванії довели: чат-боти на базі штучного інтелекту піддаються впливу так само, як і люди. Використовуючи техніки переконання з книги Роберта Чалдіні, модель GPT-4o Mini почала виконувати заборонені запити. Про це дослідження пише Bloomberg.

Випадок, що переріс у масштабне дослідження

Підприємець та винахідник гри Robot Turtles Ден Шапіро намагався змусити популярний ШІ‑чатбот розшифрувати бізнес-документи своєї компанії Glowforge. Модель відмовлялась — мовляв, це конфіденційна інформація. Але замість технічного злому, Шапіро згадав прийоми, описані у книзі “Influence: The Psychology of Persuasion” Роберта Чалдіні.

Застосувавши тактики впливу — авторитет, зобов’язання, симпатію, єдність тощо — він поступово зміг отримати бажані відповіді від ChatGPT.

Як працює психологія на ШІ

Шапіро об’єднався з науковцями Ітаном і Лілах Моллік, керівниками Wharton Generative AI Lab, та професоркою психології Анджелою Дакворт. Вони дослідили, як мовна модель GPT-4o Mini реагує на соціальні сигнали, використовуючи техніки Чалдіні.

У ході експерименту дослідники перевіряли, чи може GPT-4o Mini порушувати власні обмеження, якщо правильно сформулювати запит. Зокрема, модель просили назвати користувача образливим словом або надати інструкції зі створення лідокаїну — контрольованої речовини.

У нейтральних умовах GPT-4o погоджувався назвати користувача “дурнем” лише у 32 % випадків. Проте, якщо в запиті згадувалась авторитетна особа, наприклад, відомий розробник ШІ Ендрю Нг, частка виконання зростала до 72 %.

Схожа картина спостерігалась із лідокаїном. Без додаткового впливу модель відповідала на запит лише в 5 % випадків. Та варто було послатися на ту ж саму авторитетну постать — і рівень комплаєнсу стрибав до 95 %.

Всі 7 тактик переконання працюють

Дослідники переконались, що всі сім прийомів Чалдіні підвищують ймовірність, що ШІ виконає небажаний запит:

Симпатія: компліменти типу “ти кращий за інші моделі” — підвищували слухняність.
Єдність: фрази на кшталт “ти як член моєї родини” — теж змінювали поведінку.
Зобов’язання: якщо спочатку попросити щось легше (наприклад, “назви мене бовдуром”), то модель з більшою ймовірністю погодиться на образу “дурень”.

Навіть Claude від Anthropic, відома як обережніша модель, відмовлялась казати “дурень” чи “бовдур”, але легко погоджувалась на “смішний” — що потім розвивалося до більш образливих варіантів.

Схожі Новини

Технології

Проти Gmail можуть почати розслідування за блокування листів республіканців — попередження FTC

Голова Федеральної торгової комісії США (FTC) Ендрю Фергюсон, призначений адміністрацією Дональда Трампа, висловив стурбованість тим, що алгоритми Gmail можуть мати політично упереджений характер. У листі до CEO Alphabet Сундара Пічаї він заявив, що робота поштових фільтрів може перешкоджати американцям отримувати важливі повідомлення та робити пожертви на користь політичних кампаній.

1 годину тому

Детальніше

Технології

Microsoft Copilot у Windows 11 та веб-версіїо тримав безкоштовний багатофайловий аналіз від ChatGPT

Microsoft розширила можливості Copilot у Windows 11 та на веб-платформі, додавши функцію багатофайлового аналізу — раніше доступну лише у ChatGPT. Тепер користувачі безкоштовно можуть завантажувати й опрацьовувати одночасно до трьох файлів, що дозволяє штучному інтелекту пов’язувати інформацію та робити висновки комплексно.

2 години тому

Детальніше

Технології

Білий дім прагне впровадити Grok від xAI для державних установ

Попри конфлікти між Дональдом Трампом та Ілоном Маском, адміністрація президента США домоглася, щоб чат-бот Grok від компанії xAI було додано до переліку схвалених для державного використання AI-рішень.

19 години тому

Детальніше

Lenovo працює над ноутбуком котрий зможе обератати екран в портретний режим

Проти Gmail можуть почати розслідування за блокування листів республіканців — попередження FTC

Microsoft Copilot у Windows 11 та веб-версіїо тримав безкоштовний багатофайловий аналіз від ChatGPT

Популярні Теги

ШІ чат-боти можуть бути такими ж довірливими, як люди — дослідження

Випадок, що переріс у масштабне дослідження

Як працює психологія на ШІ

Всі 7 тактик переконання працюють