Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

MIMO：基于空间分解建模的可控角色视频合成

2024-09-25

MIMO是一种通用的可控视频合成模型，可以模仿复杂运动和物体交互中任何地方的任何人。给定一张参考图像，MIMO 可以通过几分钟的推理合成可动画的化身。其核心思想是将二维视频编码为紧凑的空间代码，考虑到视频发生 inherent 3D 特性。具体来说，模型使用单目深度估计器将二维帧像素提升到三维，并根据三维深度将视频片段分解为三个空间组件（即，主要人物、底层场景和漂浮遮挡）。然后将这些组件进一步编码为规范身份代码、结构化运动代码和完整场景代码，这些代码用作合成过程的控制信号。这种空间分解策略实现了灵活的用户控制、空间运动表达以及用于场景交互的 3D 感知合成。

(menyifang.github.io)

未分类视频合成三维建模