Goku: Modelos de Fundação de Geração de Vídeo Baseados em Fluxo

2025-02-15
Goku: Modelos de Fundação de Geração de Vídeo Baseados em Fluxo

Uma equipe colaborativa da ByteDance e da HKU apresenta Goku, uma família de modelos de geração de imagem e vídeo baseados em transformadores de fluxo retificado. Goku alcança desempenho de geração visual líder do setor por meio de curadoria meticulosa de dados, design avançado de modelos e formulação de fluxo. Suporta geração de texto para vídeo, imagem para vídeo e texto para imagem, obtendo pontuações máximas em benchmarks importantes como GenEval, DPG-Bench e VBench. Goku-T2V obteve impressionante pontuação de 84.85 no VBench, ficando em segundo lugar em 7 de outubro de 2024, superando vários modelos comerciais líderes de texto para vídeo.