4Real-Video-V2:効率的な4Dビデオ拡散モデル

2025-06-24

Snap Inc.とKAUSTは、フィードフォワードアーキテクチャに基づく4Dビデオ拡散モデルである4Real-Video-V2を共同で開発しました。これは、各タイムステップの4D時空間グリッドと3Dガウス粒子を効率的に計算します。その鍵となるのは、同じフレーム内、同じタイムスタンプ、または同じ視点からのトークンが他のトークンに注目できるスパースアテンションパターンです。これにより、大規模な事前学習済みビデオモデルへのスケーラビリティ、効率的なトレーニング、優れた汎化性能を実現し、ベースビデオモデルにパラメーターを追加することなく、大幅な性能向上を実現しています。

続きを読む