搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 矿池 QB64 更多

MIMO:基于空间分解建模的可控角色视频合成 (menyifang.github.io)

MIMO是一种通用的可控视频合成模型,可以模仿复杂运动和物体交互中任何地方的任何人。给定一张参考图像,MIMO 可以通过几分钟的推理合成可动画的化身。其核心思想是将二维视频编码为紧凑的空间代码,考虑到视频发生 inherent 3D 特性。具体来说,模型使用单目深度估计器将二维帧像素提升到三维,并根据三维深度将视频片段分解为三个空间组件(即,主要人物、底层场景和漂浮遮挡)。然后将这些组件进一步编码为规范身份代码、结构化运动代码和完整场景代码,这些代码用作合成过程的控制信号。这种空间分解策略实现了灵活的用户控制、空间运动表达以及用于场景交互的 3D 感知合成。