
Apple представила FastVLM — нову візуально-мовну модель (Visual Language Model), оптимізовану для роботи на пристроях з Apple Silicon. Як повідомляє 9to5Mac, ця модель дозволяє обробляти високоякісні зображення з мінімальними затримками та споживанням ресурсів, що робить її ідеальною для використання в носимих пристроях, таких як смартокуляри.
Ключовим елементом FastVLM є енкодер FastViTHD, який забезпечує до 3,2 разів швидшу роботу та вимагає на 3,6 разів менше ресурсів порівняно з аналогічними моделями. Це дозволяє пристроям обробляти інформацію локально, без необхідності підключення до хмари, що підвищує швидкість та конфіденційність.

За інформацією 9to5Mac, Apple планує випустити смартокуляри з підтримкою AI приблизно у 2027 році. Ці окуляри стануть конкурентом Meta Ray-Ban та будуть оснащені камерами та іншими функціями на основі штучного інтелекту.
FastVLM дозволить цим окулярам розпізнавати жести, тексти, емодзі та інші візуальні елементи в реальному часі, що відкриває нові можливості для взаємодії з навколишнім світом.
FastVLM побудована на основі MLX — відкритої платформи машинного навчання від Apple, спеціально розробленої для Apple Silicon. MLX дозволяє ефективно навчати та запускати моделі безпосередньо на пристроях Apple, що забезпечує високу продуктивність та енергоефективність.