Vídeos de um Minuto a Partir de Storyboards de Texto Usando Transformadores com Treinamento em Tempo de Teste
Modelos Transformer atuais têm dificuldades em gerar vídeos de um minuto devido à ineficiência das camadas de autoatenção para contextos longos. Este artigo explora camadas de Treinamento em Tempo de Teste (TTT), cujos estados ocultos são eles próprios redes neurais, oferecendo maior expressividade. Adicionar camadas TTT a um Transformer pré-treinado permite a geração de vídeos de um minuto a partir de storyboards de texto. Experimentos usando um conjunto de dados de desenhos animados do Tom e Jerry mostram que as camadas TTT melhoram significativamente a coerência do vídeo e a narrativa em comparação com modelos base como Mamba 2 e Gated DeltaNet, alcançando uma vantagem de 34 pontos Elo na avaliação humana. Embora ainda existam artefatos, provavelmente devido às limitações do modelo de 5B parâmetros, este trabalho demonstra uma abordagem promissora escalável para vídeos mais longos e narrativas mais complexas.
Leia mais