Дослідники з’ясували, що штучний інтелект погано імітує людські суперечки онлайн

Штучний інтелект

Штучний інтелект перевершує людей у шахах, математиці та дедалі частіше — у програмуванні, рекламі й навіть психотерапії. Однак нове дослідження показало, що є одна сфера, де люди залишаються непереможними: інтернетні суперечки.

Вчені з Університету Цюриха, Амстердаму, Дьюка та Нью-Йоркського університету виявили, що навіть найсучасніші LLM-моделі (великі мовні моделі) поки що не здатні достовірно імітувати характерну людську емоційність і «токсичність» у соціальних мережах, повідомляє PCMag з посиланням на дослідження.

Як проводилося дослідження

Команда протестувала дев’ять відкритих моделей з шести різних сімейств — Apertus, DeepSeek, Gemma, Llama, Mistral та Qwen, а також одну велику версію Llama. Для аналізу обрали три соціальні платформи: Bluesky, Reddit та X.

Штучний інтелект

Результати показали, що штучно згенеровані пости легко відрізнити від людських із точністю 70–80%, що значно вище випадкового рівня. Головною ознакою, за словами вчених, стала менша токсичність AI-відповідей у порівнянні з реальними коментарями користувачів.

AI занадто ввічливий — і це його проблема

Алгоритми виявилися більш ефективними у відтворенні технічних параметрів тексту — довжини речень, словникової структури чи частоти використання емоційних слів. Водночас вони практично не здатні передати сарказм, агресію або іронію, характерні для живої дискусії.

Згідно з дослідженням, рівень токсичності в AI-коментарях значно нижчий, ніж у людських, особливо на платформах Reddit і Bluesky. Найкраще моделі справлялися з імітацією стилю користувачів X, тоді як Reddit виявився найскладнішим через більш різноманітні норми спілкування.

Чому деякі моделі кращі за інші

Цікаво, що моделі без інструкційного донавчання — такі як Llama-3.1-8B, Mistral-7B та Apertus-8B — показали кращі результати, ніж ті, що були “налаштовані” людьми.

Дослідники припускають, що процес етичного спілкування робить текст надто передбачуваним і машинним, зменшуючи природність і варіативність висловлювань.


Телеграм double.newsТелеграм double.news

Схожі Новини
Samsung Galaxy S26 Ultra

Samsung Galaxy S26 Ultra випередив iPhone 17 Pro Max у тестах Geekbench 6

Новий флагманський смартфон Samsung Galaxy S26 Ultra продемонстрував вищі результати в Geekbench 6, ніж iPhone 17 Pro Max. Згідно з оприлюдненими даними бенчмарку, модель на базі Snapdragon 8 Elite Gen 5 перевершила конкурента як у одноядерному, так і в багатоядерному тестуванні.
Детальніше
DDR 5 пам'ять

Ціни на DDR5 у Європі почали знижуватися попри дефіцит пам’яті

Роздрібні ціни на модулі DDR5 у Європі демонструють перші ознаки зниження після різкого зростання наприкінці 2025 року. Попри глобальний дефіцит DRAM та рекордні ціни у США, в окремих країнах ЄС вартість комплектів 32 ГБ DDR5-6000/6400 поступово коригується вниз.
Детальніше
WhatsApp

WhatsApp дозволив новим учасникам переглядати історію групових повідомлень

WhatsApp запускає функцію історію повідомлень у групах, яка дає новим учасникам груп доступ до попередніх повідомлень. Тепер адміністратори та учасники можуть поділитися частиною недавньої переписки, щоб новачки швидше зрозуміли контекст розмови.
Детальніше