4Real-Video-V2: Modelo de Difusão de Vídeo 4D Eficiente
2025-06-24
A Snap Inc. e a KAUST colaboraram no 4Real-Video-V2, um modelo de difusão de vídeo 4D baseado em arquitetura feedforward. Ele calcula eficientemente uma grade espaço-temporal 4D de quadros de vídeo e partículas gaussianas 3D para cada etapa de tempo. A chave é um padrão de atenção esparsa que permite que tokens atentem para outros no mesmo quadro, no mesmo timestamp ou do mesmo ponto de vista. Isso o torna escalonável para grandes modelos de vídeo pré-treinados, eficiente para treinar e oferece boa generalização, alcançando melhorias significativas sem adicionar parâmetros ao modelo de vídeo base.