Дослідники Apple навчили мовні моделі визначати активність користувачів за даними сенсорів

Абстрактна неонова сфера, що символізує інтерфейс Apple Intelligence

Техногігант Apple оприлюднив нову наукову працю, у якій описує здатність великих мовних моделей визначати поточні дії власника смартфона. Алгоритми аналізують навколишній аудіофон та показники фізичного руху. Ця технологія гарантує високу точність класифікації поведінки користувача навіть за умови дефіциту чистих сенсорних сигналів. Водночас розробники запевняють: нейромережа не прослуховує приватні розмови, а опрацьовує виключно текстові описи звуків, повідомляє видання 9to5Mac у листопаді 2025 року.

Суть методу: концепція пізнього мультимодального об’єднання

У своїй роботі під назвою «Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition» інженери Apple детально описують технологію розпізнавання. Мовна модель поєднує текстовий опис звукових хвиль із показниками сенсорів руху (блоку IMU, що містить акселерометр та гіроскоп). У результаті ШІ отримує лаконічний текстовий опис поточної ситуації та безпомилково визначає, чим саме займається людина в цей момент.

Схема алгоритму розпізнавання активностей користувача за допомогою обробки текстових описів

Фахівці Apple виділяють кілька вагомих переваг нової розробки:

  • суттєве підвищення точності розпізнавання дій за умови слабкого чи зашумленого сигналу з датчиків;
  • можливість класифікації нових видів активностей без попереднього тривалого перенавчання базової моделі;
  • значна економія оперативної пам’яті та енергії мобільних пристроїв під час обробки даних;
  • надійна робота алгоритмів у фоновому режимі без залучення серверних хмарних обчислень.
Параметр порівняння Традиційний метод обробки (Early Fusion) Новий підхід Apple (Late LLM Fusion)
Тип вхідних даних для ШІ Сирі числові сигнали та бінарні аудіофайли Короткі текстові описи подій та рухів
Конфіденційність приватності Середня (система записує та обробляє аудіо) Висока (ШІ опрацьовує виключно текст)
Вимоги до навчання Вимагає тисяч годин маркованих тренувальних записів Працює в режимі Zero-shot (без навчання)
Гнучкість до нових дій Низька (потрібно повністю перенавчати систему) Висока (розуміє контекст природної мови)

Ефективна робота без порушення конфіденційності

Автори дослідження підкреслюють, що великі мовні моделі демонструють відмінні результати навіть у режимі «zero-shot» — тобто без жодного спеціалізованого навчання на конкретних прикладах поведінки людини. Якщо ж розробники додають хоча б один текстовий приклад активності, точність класифікатора зростає ще сильніше.

Дослідники окремо наголошують на безпеці цієї технології. Нейромережа взагалі не отримує доступу до приватного звукового потоку користувача. Замість цього аудіомодель на самому пристрої перетворює звуки на прості текстові теги (наприклад, «звук бігу», «дзюрчання води», «шум автостради»). Такий підхід повністю захищає приватне життя користувача від витоків персональної інформації.

Підсумок

У листопаді 2025 року компанія Apple опублікувала дослідження, яке доводить здатність великих мовних моделей розпізнавати поточну активність користувача на основі аналізу текстових описів звуків та рухів. Розроблена технологія Late Multimodal Sensor Fusion забезпечує високу точність роботи навіть без попереднього навчання ШІ-моделі на конкретних прикладах поведінки. Такий текстовий формат обробки сенсорних даних виключає прослуховування приватних розмов користувачів та гарантує повну конфіденційність персональної інформації на смартфонах iPhone.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше