Goku : Modèles fondamentaux de génération de vidéo basés sur le flux
2025-02-15
Une équipe collaborative de ByteDance et de l'HKU présente Goku, une famille de modèles de génération d'images et de vidéos basés sur des transformateurs de flux rectifiés. Goku atteint des performances de génération visuelle de pointe grâce à une curation méticuleuse des données, une conception de modèles avancée et une formulation de flux. Il prend en charge la génération de texte à vidéo, d'image à vidéo et de texte à image, obtenant des scores de pointe sur les principaux benchmarks tels que GenEval, DPG-Bench et VBench. Notamment, Goku-T2V a obtenu un score impressionnant de 84,85 sur VBench, se classant deuxième au 7 octobre 2024, surpassant plusieurs modèles commerciaux de texte à vidéo leaders.