テスト時訓練を用いたトランスフォーマーによる1分間の動画生成

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-04-08

現在のトランスフォーマーモデルは、長いコンテキストに対する自己注意レイヤーの非効率性のために、1分間の動画生成に苦労しています。本論文では、隠れ状態自体がニューラルネットワークであるテスト時訓練（TTT）レイヤーを検討します。これにより、表現力が向上します。事前学習済みトランスフォーマーにTTTレイヤーを追加することで、テキストストーリーボードから1分間の動画を生成できます。トムとジェリーカートゥーンのデータセットを使った実験では、Mamba 2やGated DeltaNetなどのベースラインと比較して、TTTレイヤーが動画の一貫性とストーリーテリングを大幅に向上させ、人間の評価で34 Eloポイントのアドバンテージを達成しました。50億パラメータモデルの制約によりアーティファクトが残っていますが、この研究は、より長く複雑な物語を持つ動画にスケール可能な有望なアプローチを示しています。