
Apple опублікувала нове наукове дослідження, у якому вивчає можливості великих мовних моделей (LLM) визначати активність користувача на основі аудіосигналів і даних руху. Це відкриває перспективи точнішого аналізу поведінки навіть тоді, коли сенсорної інформації недостатньо. Водночас компанія підкреслює: йдеться не про роботу зі сирими аудіозаписами, а про обробку текстових описів, згенерованих окремими моделями. Про це пише 9to5Mac.
Дослідження Apple: як LLM допомагають розпізнавати дії
У статті під назвою «Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition» дослідники Apple представили підхід, за яким LLM поєднують текстові описи аудіо та дані, отримані від моделей, що аналізують рух (IMU — акселерометр і гіроскоп). Таким чином система отримує стислий текстовий опис сенсорної інформації та на цій основі визначає, чим займається користувач.

Apple зазначає, що запропонований підхід може суттєво підвищити точність розпізнавання активностей у ситуаціях, коли сенсорних даних недостатньо, моделі не проходили спеціального навчання для конкретних завдань або коли важливо зменшити обсяг пам’яті та обчислювальних ресурсів, необхідних для роботи системи.
«Вони добре справляються, але не в тривожний спосіб»
У дослідженні підкреслено, що LLM демонструють точність вище випадкового рівня навіть у zero-shot режимі, тобто без додаткового навчання на вибірці активностей. Якщо моделі надати один приклад, точність зростає ще більше.
У дослідженні наголошується, що LLM не отримували самих аудіозаписів, а працювали лише з короткими текстовими описами, згенерованими аудіомоделями, прогнозами IMU-моделей та додатковим контекстом, що мінімізує ризики для конфіденційності та дає змогу аналізувати активність користувача без обробки приватного звуку.

