MIMO:基于空间分解建模的可控角色视频合成

2024-09-25

MIMO是一种通用的可控视频合成模型,可以模仿复杂运动和物体交互中任何地方的任何人。给定一张参考图像,MIMO 可以通过几分钟的推理合成可动画的化身。其核心思想是将二维视频编码为紧凑的空间代码,考虑到视频发生 inherent 3D 特性。具体来说,模型使用单目深度估计器将二维帧像素提升到三维,并根据三维深度将视频片段分解为三个空间组件(即,主要人物、底层场景和漂浮遮挡)。然后将这些组件进一步编码为规范身份代码、结构化运动代码和完整场景代码,这些代码用作合成过程的控制信号。这种空间分解策略实现了灵活的用户控制、空间运动表达以及用于场景交互的 3D 感知合成。