Goku: Flussbasierte Video-Generative Foundation Models erreichen Spitzenleistung
2025-02-15
Ein gemeinsames Team von ByteDance und HKU stellt Goku vor, eine Familie von Bild- und Videogenerierungsmodellen, die auf rektifizierten Flow-Transformatoren basieren. Goku erreicht branchenführende Leistung in der visuellen Generierung durch sorgfältige Datenkuratierung, fortschrittliches Modelldesign und Flussformulierung. Es unterstützt die Generierung von Text zu Video, Bild zu Video und Text zu Bild und erzielt Top-Ergebnisse bei wichtigen Benchmarks wie GenEval, DPG-Bench und VBench. Insbesondere Goku-T2V erzielte am 7. Oktober 2024 mit 84,85 Punkten auf VBench den zweiten Platz und übertraf mehrere führende kommerzielle Text-zu-Video-Modelle.