Vídeos de un Minuto a Partir de Storyboards de Texto Usando Transformadores con Entrenamiento en Tiempo de Prueba
Los modelos Transformer actuales tienen dificultades para generar vídeos de un minuto debido a la ineficiencia de las capas de autoatención para contextos largos. Este artículo explora capas de Entrenamiento en Tiempo de Prueba (TTT), cuyos estados ocultos son en sí mismas redes neuronales, ofreciendo mayor expresividad. Agregar capas TTT a un Transformer preentrenado permite la generación de vídeos de un minuto a partir de storyboards de texto. Experimentos usando un conjunto de datos de dibujos animados de Tom y Jerry muestran que las capas TTT mejoran significativamente la coherencia del vídeo y la narrativa en comparación con modelos base como Mamba 2 y Gated DeltaNet, alcanzando una ventaja de 34 puntos Elo en la evaluación humana. Aunque todavía existen artefactos, probablemente debido a las limitaciones del modelo de 5B parámetros, este trabajo demuestra un enfoque prometedor escalable a vídeos más largos y narrativas más complejas.
Leer más