矩阵:实时交互的无限视界世界生成

2024-11-21

阿里巴巴集团和多所大学的研究人员推出了“矩阵”项目,这是一个能够生成具有AAA级画质、无限时长视频的AI模型。该系统允许用户通过键盘指令进行帧级精度的实时交互,并在虚拟和现实世界场景中均表现出强大的泛化能力。与其他生成模型相比,“矩阵”在视频长度、分辨率、控制精度和泛化能力方面具有显著优势。该项目利用Swin-DPM技术克服了传统DiT模型的局限性,实现了无限长度视频的生成,并通过交互模块将键盘输入转化为自然语言命令,从而控制视频内容。此外,该项目还开源了其数据集GameData Platform,以推动该领域的研究和创新。

未分类