4Real-Video-V2: Modelo de Difusión de Vídeo 4D Eficiente

2025-06-24

Snap Inc. y KAUST han colaborado en 4Real-Video-V2, un modelo de difusión de vídeo 4D basado en una arquitectura de alimentación directa. Calcula eficientemente una cuadrícula espacio-temporal 4D de fotogramas de vídeo y partículas gaussianas 3D para cada paso de tiempo. La clave es un patrón de atención dispersa que permite que los tokens atiendan a otros en el mismo fotograma, en el mismo instante o desde el mismo punto de vista. Esto lo hace escalable a modelos de vídeo preentrenados de gran tamaño, eficiente de entrenar y ofrece una buena generalización, logrando mejoras significativas sin añadir parámetros al modelo de vídeo base.