Тепер, коли ChatGPT та Midjourney стали майже мейнстрімом, наступною великою гонкою штучного інтелекту стають генератори відео з тексту. Nvidia нещодавно продемонструвала деякі технології, які можуть вивести ваші GIFки на новий рівень.
Моделі латентного розсіювання (або LDM) – це тип штучного інтелекту, який може генерувати відео без потреби в величезній обчислювальній потужності. Nvidia стверджує, що її технологія робить це додаючи “тимчасовий вимір до моделі латентного розсіювання в просторі”.
Іншими словами, генеративний штучний інтелект може заставляти нерухомі зображення рухатися реалістично та масштабувати їх за допомогою технік суперроздільності. Він може створювати короткі відео тривалістю 4,7 секунди з роздільною здатністю 1280×2048 або довші відео з нижчою роздільною здатністю 512×1024.
Звичайно, в технології є великі перспективи, такі як автоматична екранізація фільмів, але на цьому етапі конвертація тексту у GIF здається найбільш “робочім” варіантом використання.
Прості підказки, такі як “штурмовик пилососить на пляжі” та “плюшеве ведмежа грає на електрогітарі, висока чіткість, 4K”, дають досить хороші результати, хоча інколи при роботі з ШІ виникають артефакти та морфінг.