Бурхливий розвиток штучного інтелекту (ШІ) створив складне завдання для людства – тепер з’явилася потреба у якомусь способі відфільтрувати документи, резюме та інші дані, створені чат-ботами. Багато компаній вже працюють над розробкою програм, які мають відрізняти тексти, написані живими людьми, від тих, що були сгенеровані машинами.
Сюрприз – всі ці програми не працюють, якщо для людини англійська не є рідною мовою.
Це підтверджує дослідження, опубліковане в журналі Patterns. У ньому вчені взяли сім “широко поширених” детекторів AI і провели через них 99 есе, написаних учнями восьмого класу, та 91 есе, авторами яких були іноземці.
У випадку з англомовними учнями восьмого класу всі детектори правильно класифікували понад 90% есе. Однак з текстами іноземців програми в середньому помилялися в 61.3% випадків. Один з детекторів навіть відзначив 98% текстів як згенеровані ШІ.
Як пояснили автори дослідження, більшість детекторів штучного інтелекту оцінюють текст за показником, який називається “недоуміння”. Це показник того, наскільки несподіваним є слово в контексті тексту. Якщо слово легко передбачити, враховуючи попередні слова, то теоретично вища ймовірність того, що за речення відповідає AI, оскільки великі мовні моделі використовують ймовірнісні алгоритми для створення переконливо організованого тексту.
У той же час люди, які не є носіями певної мови, як правило, пишуть на цій мові з відносно обмеженим словниковим запасом і передбачуваним набором граматичних засобів, що може призвести до передбачуваних речень і абзаців. Дослідники виявили, що, зменшивши кількість повторів слів в есе, вони змогли значно зменшити кількість помилкових спрацювань, які видали детектори AI. Навпаки, спрощення мови в творах учнів восьмого класу призвело до того, що більша їх кількість була прийнята за творіння ШІ.
Очевидно, виклик виявлення штучного інтелекту в текстах, написаних людьми, все ще є відкритим. Нові дослідження та технології продовжують зʼявлятись, але ще не було знайдено універсального рішення.