Eiminütige Videos aus Text-Storyboards mithilfe von Testzeit-Trainings-Transformatoren
Aktuelle Transformer-Modelle haben Schwierigkeiten, einminütige Videos zu generieren, da die Selbstaufmerksamkeits-Schichten für lange Kontexte ineffizient sind. Dieser Artikel untersucht Testzeit-Trainings-(TTT)-Schichten, deren versteckte Zustände selbst neuronale Netze sind und daher ausdrucksstärker sind. Das Hinzufügen von TTT-Schichten zu einem vorab trainierten Transformer ermöglicht die Generierung einminütiger Videos aus Text-Storyboards. Experimente mit einem Datensatz von Tom-und-Jerry-Cartoons zeigen, dass TTT-Schichten die Kohärenz des Videos und das Storytelling im Vergleich zu Basislinien wie Mamba 2 und Gated DeltaNet deutlich verbessern und einen Vorteil von 34 Elo-Punkten in der menschlichen Bewertung erzielen. Obwohl Artefakte verbleiben, wahrscheinlich aufgrund der Einschränkungen des 5B-Parameter-Modells, zeigt diese Arbeit einen vielversprechenden Ansatz, der auf längere Videos und komplexere Geschichten skalierbar ist.