Vidéos d'une Minute à Partir de Storyboards Textuels en Utilisant des Transformateurs avec Entraînement en Temps de Test

2025-04-08

Les modèles Transformer actuels ont du mal à générer des vidéos d'une minute en raison de l'inefficacité des couches d'auto-attention pour les contextes longs. Cet article explore les couches d'entraînement en temps de test (TTT), dont les états cachés sont eux-mêmes des réseaux neuronaux, offrant une plus grande expressivité. L'ajout de couches TTT à un Transformer pré-entraîné permet la génération de vidéos d'une minute à partir de storyboards textuels. Des expériences utilisant un ensemble de données de dessins animés Tom et Jerry montrent que les couches TTT améliorent significativement la cohérence de la vidéo et la narration par rapport aux modèles de base tels que Mamba 2 et Gated DeltaNet, atteignant un avantage de 34 points Elo dans l'évaluation humaine. Bien que des artefacts persistent, probablement en raison des limitations du modèle à 5 milliards de paramètres, ce travail démontre une approche prometteuse évolutive vers des vidéos plus longues et des récits plus complexes.