4Real-Video-V2 : Modèle de diffusion vidéo 4D efficace
2025-06-24
Snap Inc. et KAUST ont collaboré à 4Real-Video-V2, un modèle de diffusion vidéo 4D basé sur une architecture de type feedforward. Il calcule efficacement une grille spatio-temporelle 4D d'images vidéo et des particules gaussiennes 3D pour chaque pas de temps. La clé est un motif d'attention clairsemé permettant aux jetons d'être attentifs à d'autres dans la même image, au même horodatage ou du même point de vue. Cela le rend évolutif pour les grands modèles vidéo pré-entraînés, efficace à entraîner et offre une bonne généralisation, réalisant des améliorations significatives sans ajouter de paramètres au modèle vidéo de base.