基于测试时训练的Transformer模型生成一分钟视频
2025-04-08
现有的Transformer模型难以生成一分钟长的视频,因为自注意力机制在处理长序列时效率低下。为解决此问题,研究人员尝试使用测试时训练(TTT)层,其隐藏状态本身就是一个神经网络,表达能力更强。将TTT层添加到预训练的Transformer模型中,使其能够根据文本故事板生成一分钟长的视频。实验结果表明,与Mamba 2、Gated DeltaNet和滑动窗口注意力机制等基线方法相比,使用TTT层的模型生成的视频更连贯,能够讲述复杂的故事,在人类评估中领先34 Elo点。尽管结果有待改进,但这项研究为生成更长、更复杂视频提供了新的思路。
AI
测试时训练