YuE: Modelo de Fundação Aberto para Geração de Música de Formato Longo
Pesquisadores apresentam YuE, uma família de modelos de fundação abertos baseados na arquitetura LLaMA2, que abordam o desafiador problema de transformar letras em canções na geração de música de formato longo. O YuE gera até cinco minutos de música, mantendo o alinhamento lírico, estrutura coerente e melodias envolventes com acompanhamento. Isso é alcançado por meio de previsão de próximo token desacoplada por faixa, condicionamento progressivo estrutural e uma receita de pré-treinamento multitarefa e multifásica. O aprendizado em contexto aprimorado permite transferência de estilo versátil (por exemplo, de J-Pop para rap em inglês) e geração bidirecional. As avaliações mostram que o YuE iguala ou mesmo supera sistemas proprietários em musicalidade e agilidade vocal. O ajuste fino adiciona controles e suporte para idiomas minoritários. As representações do YuE também se destacam em tarefas de compreensão musical, alcançando resultados de ponta no benchmark MARBLE.