YuE乐:一款基于LLaMA2的开放式长篇音乐生成模型
2025-08-08
研究人员推出了YuE(乐)——一个基于LLaMA2架构的开放式基础模型家族,用于解决长篇音乐生成,特别是歌词到歌曲的难题。YuE能够生成长达五分钟的音乐,并保持歌词一致性、连贯的音乐结构和引人入胜的旋律与伴奏。它通过轨道解耦的下一个token预测、结构性渐进式条件化以及多任务、多阶段预训练来实现这一点。此外,YuE还改进了上下文学习技术,支持风格转换(例如,将日本城市流行乐转换为英语说唱,同时保留原有的伴奏)和双向生成。评估结果表明,YuE在音乐性和语音敏捷性方面与一些专有系统不相上下甚至超越。微调YuE可以实现额外的控制并增强对小语种的支持。此外,YuE的学习表示在音乐理解任务上也表现出色,在MARBLE基准测试中取得了与最先进方法相匹敌甚至超越的结果。
AI
LLaMA2