テスト時訓練を用いたトランスフォーマーによる1分間の動画生成

2025-04-08

現在のトランスフォーマーモデルは、長いコンテキストに対する自己注意レイヤーの非効率性のために、1分間の動画生成に苦労しています。本論文では、隠れ状態自体がニューラルネットワークであるテスト時訓練(TTT)レイヤーを検討します。これにより、表現力が向上します。事前学習済みトランスフォーマーにTTTレイヤーを追加することで、テキストストーリーボードから1分間の動画を生成できます。トムとジェリーカートゥーンのデータセットを使った実験では、Mamba 2やGated DeltaNetなどのベースラインと比較して、TTTレイヤーが動画の一貫性とストーリーテリングを大幅に向上させ、人間の評価で34 Eloポイントのアドバンテージを達成しました。50億パラメータモデルの制約によりアーティファクトが残っていますが、この研究は、より長く複雑な物語を持つ動画にスケール可能な有望なアプローチを示しています。