4Real-Video-V2: Effizientes 4D-Video-Diffusionsmodell

2025-06-24

Snap Inc. und KAUST haben gemeinsam an 4Real-Video-V2 gearbeitet, einem 4D-Video-Diffusionsmodell auf Basis einer Feedforward-Architektur. Es berechnet effizient ein 4D-Raumzeitgitter von Videobildern und 3D-Gauß-Partikel für jeden Zeitschritt. Der Schlüssel ist ein spärliches Aufmerksamkeitsmuster, das es Token erlaubt, auf andere im selben Frame, zum selben Zeitstempel oder vom selben Blickwinkel zu achten. Dies macht es skalierbar für große vortrainierte Videomodelle, effizient zu trainieren und bietet eine gute Generalisierung, wobei signifikante Verbesserungen erzielt werden, ohne Parameter zum Basis-Videomodell hinzuzufügen.

Mehr lesen