4Real-Video-V2:高效的4D视频扩散模型
2025-06-24
Snap Inc. 和 KAUST 合作推出了 4Real-Video-V2,这是一个基于前馈架构的4D视频扩散模型。它能够高效地计算视频帧的4D时空网格和每个时间步的3D高斯粒子,其关键在于一种稀疏注意力机制,该机制允许模型在同一帧、同一时间戳或同一视角的标记之间进行注意力计算。这使得它易于扩展到大型预训练视频模型,训练效率高且泛化性能好,并且在不增加基础视频模型参数的情况下实现了显著的性能提升。