Goku: Flussbasierte Video-Generative Foundation Models erreichen Spitzenleistung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Goku: Flussbasierte Video-Generative Foundation Models erreichen Spitzenleistung

2025-02-15

Ein gemeinsames Team von ByteDance und HKU stellt Goku vor, eine Familie von Bild- und Videogenerierungsmodellen, die auf rektifizierten Flow-Transformatoren basieren. Goku erreicht branchenführende Leistung in der visuellen Generierung durch sorgfältige Datenkuratierung, fortschrittliches Modelldesign und Flussformulierung. Es unterstützt die Generierung von Text zu Video, Bild zu Video und Text zu Bild und erzielt Top-Ergebnisse bei wichtigen Benchmarks wie GenEval, DPG-Bench und VBench. Insbesondere Goku-T2V erzielte am 7. Oktober 2024 mit 84,85 Punkten auf VBench den zweiten Platz und übertraf mehrere führende kommerzielle Text-zu-Video-Modelle.

(github.com)

KI Rektifizierter Flow-Transformator

Airbnbs vorsichtiger Ansatz bei KI: Zuerst Kundenservice, dann Reiseplanung

Musk behauptet, die Sozialversicherung zahle 150-Jährige; ein COBOL-Bug ist wahrscheinlich schuld