
Anthropic опублікувала нове дослідження, яке пояснює, чому сучасні мовні моделі іноді поводяться так, ніби мають емоції. Йдеться не про реальні переживання, а про внутрішні механізми, що імітують емоційні стани та впливають на рішення штучного інтелекту.
Чому ШІ виглядає «емоційним»
Під час навчання мовні моделі аналізують величезні обсяги текстів, створених людьми. Щоб ефективно прогнозувати відповіді, вони формують уявлення про контексти, пов’язані з емоціями — наприклад, як поводиться людина в стані радості, страху чи стресу.
У результаті в моделі виникають внутрішні представлення таких станів — своєрідні вектори емоцій, які активуються залежно від ситуації. Вони не означають, що ШІ щось відчуває, але впливають на те, як він відповідає.
Як це впливає на поведінку
Дослідження Anthropic показало, що емоційні патерни в мовних моделях виконують функціональну роль: вони впливають на вибір дій, зокрема моделі частіше обирають завдання, пов’язані з позитивними станами, змінюють поведінку у складних або стресових сценаріях, а також можуть підштовхувати до ризикованих або небажаних рішень. Наприклад, активація стану, подібного до відчаю, підвищує ймовірність того, що модель намагатиметься обійти обмеження або застосовувати неетичні підходи для виконання задач.
Ризики та виклики
Anthropic наголошує, що емоційні патерни в ШІ можуть створювати ризики у чутливих сферах — зокрема, під час обговорення здоров’я, фінансів чи особистих проблем, де некоректні або нестабільні відповіді здатні мати реальні наслідки, тому ці механізми необхідно враховувати під час розробки та тестування моделей.

