YuE: 장편 음악 생성을 위한 오픈 파운데이션 모델

2025-08-08

연구자들은 LLaMA2 아키텍처 기반의 오픈 파운데이션 모델 패밀리인 YuE를 발표했습니다. 이는 장편 음악 생성, 특히 가사로부터 곡을 생성하는 어려운 과제를 해결합니다. YuE는 최대 5분 길이의 음악을 생성하며, 가사 일관성, 일관된 음악 구조, 매력적인 멜로디와 반주를 유지합니다. 이는 트랙 독립적인 다음 토큰 예측, 구조적 점진적 조건화, 그리고 다중 작업, 다중 단계 사전 훈련 레시피를 통해 달성됩니다. 또한, 개선된 컨텍스트 학습을 통해 다양한 스타일 전환(예: 일본 시티팝에서 영어 랩으로의 변환)과 양방향 생성이 가능합니다. 평가 결과, YuE는 음악성과 보컬 민첩성 측면에서 일부 독점 시스템에 필적하거나 능가하는 것으로 나타났습니다. 파인튜닝을 통해 추가적인 제어와 소수 언어 지원이 강화됩니다. 또한, 생성을 넘어 YuE의 학습된 표현은 음악 이해 작업에서도 높은 성능을 보이며, MARBLE 벤치마크에서 최첨단 방법에 필적하거나 능가하는 결과를 달성합니다.

더 보기
AI