Goku: 흐름 기반 비디오 생성 기초 모델

2025-02-15
Goku: 흐름 기반 비디오 생성 기초 모델

ByteDance와 홍콩대학교 공동 연구팀이 수정된 플로우 트랜스포머 기반의 이미지 및 비디오 생성 모델 패밀리인 Goku를 발표했습니다. Goku는 정교한 데이터 큐레이션, 고급 모델 설계, 플로우 공식화를 통해 업계 최고 수준의 시각적 생성 성능을 달성합니다. 텍스트-비디오, 이미지-비디오, 텍스트-이미지 생성을 지원하며, GenEval, DPG-Bench, VBench와 같은 주요 벤치마크에서 최고 점수를 기록했습니다. 특히 Goku-T2V는 VBench에서 84.85점을 받아 2024년 10월 7일 기준 2위를 차지했으며, 여러 주요 상용 텍스트-비디오 모델을 능가했습니다.