Goku: Modelos Fundamentales de Generación de Vídeo Basados en Flujo
2025-02-15
Un equipo colaborativo de ByteDance y la HKU presenta Goku, una familia de modelos de generación de imágenes y vídeo basados en transformadores de flujo rectificado. Goku logra un rendimiento de generación visual líder en la industria mediante una meticulosa curación de datos, un diseño avanzado de modelos y una formulación de flujo. Admite la generación de texto a vídeo, imagen a vídeo y texto a imagen, obteniendo las puntuaciones más altas en importantes puntos de referencia como GenEval, DPG-Bench y VBench. Goku-T2V obtuvo una impresionante puntuación de 84.85 en VBench, ocupando el segundo lugar el 7 de octubre de 2024, superando a varios modelos comerciales líderes de texto a vídeo.