基于测试时训练的Transformer模型生成一分钟视频

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

基于测试时训练的Transformer模型生成一分钟视频

2025-04-08

现有的Transformer模型难以生成一分钟长的视频，因为自注意力机制在处理长序列时效率低下。为解决此问题，研究人员尝试使用测试时训练(TTT)层，其隐藏状态本身就是一个神经网络，表达能力更强。将TTT层添加到预训练的Transformer模型中，使其能够根据文本故事板生成一分钟长的视频。实验结果表明，与Mamba 2、Gated DeltaNet和滑动窗口注意力机制等基线方法相比，使用TTT层的模型生成的视频更连贯，能够讲述复杂的故事，在人类评估中领先34 Elo点。尽管结果有待改进，但这项研究为生成更长、更复杂视频提供了新的思路。

(test-time-training.github.io)

AI 测试时训练

LLM Hacker News 插件：一键获取 Hacker News 内容摘要

巴西Pix支付系统：疫情催生的支付奇迹