4Real-Video-V2: 효율적인 4D 비디오 확산 모델
2025-06-24
Snap Inc.과 KAUST는 피드포워드 아키텍처 기반의 4D 비디오 확산 모델인 4Real-Video-V2를 공동 개발했습니다. 이 모델은 각 시간 단계의 4D 시공간 그리드와 3D 가우시안 입자를 효율적으로 계산합니다. 핵심은 동일한 프레임, 동일한 타임스탬프 또는 동일한 뷰포인트에서 토큰이 다른 토큰에 주의를 기울일 수 있는 스파스 어텐션 패턴입니다. 이를 통해 대규모 사전 훈련된 비디오 모델에 대한 확장성, 효율적인 훈련 및 우수한 일반화 성능을 달성하여 기본 비디오 모델에 매개변수를 추가하지 않고도 상당한 성능 향상을 달성했습니다.