
Компанія Google DeepMind презентувала Genie 3 — свою найновішу світову модель, яка може стати ключовим кроком на шляху до створення AGI (Artificial General Intelligence) — універсального штучного інтелекту, здатного до людськоподібного навчання й мислення. Про це повідомляє TechCrunch.
Що таке Genie 3 і як вона працює
Genie 3 — це перша інтерактивна модель світу загального призначення в режимі реального часу, яка генерує фотореалістичні, уявні або комбіновані 3D-середовища за текстовим запитом. На відміну від попередніх моделей, вона не обмежується вузькими сценаріями: користувач може створювати цілі світи на кілька хвилин, у роздільній здатності 720p, зі швидкістю 24 кадри на секунду.
“Genie 3 йде далі за інші моделі — вона не прив’язана до конкретного середовища”, — зазначив Шломі Фрухтер, директор з досліджень DeepMind.
Пам’ять, фізика та послідовність
Однією з ключових інновацій є здатність моделі пам’ятати попередньо згенероване, що забезпечує фізичну послідовність подій у часі. Такий ефект не було прямо запрограмовано, а він став емергентною властивістю моделі. Genie 3 створює кожен кадр поетапно, озираючись на те, що було раніше — як людина, що аналізує події у динаміці.
Це дозволяє моделі інтуїтивно розуміти фізику — наприклад, що предмет, який завис на краю, ось-ось впаде.
Новий рівень навчання агентів
Genie 3 створює потенційно ідеальне середовище для тренування агентів загального призначення. Вона не використовує жорстко задані фізичні движки, а самостійно навчається, як об’єкти падають, рухаються і взаємодіють.
Такі симуляції можуть змусити агентів адаптуватися, експериментувати та вчитися на помилках, подібно до того, як це відбувається у реальному житті.
Обмеження та перспективи
На сьогодні Genie 3 все ще має обмеження:
- Час безперервної взаємодії обмежений кількома хвилинами.
- Важко моделювати складні взаємодії між кількома агентами.
- Більшість змін у середовищі запускаються за запитом, а не самими агентами.