YuE: Modelo de Fundación Abierto para la Generación de Música de Formato Largo
Los investigadores presentan YuE, una familia de modelos de fundación abiertos basados en la arquitectura LLaMA2, que abordan el desafiante problema de convertir letras en canciones en la generación de música de formato largo. YuE genera hasta cinco minutos de música, manteniendo la alineación lírica, una estructura coherente y melodías atractivas con acompañamiento. Esto se logra mediante la predicción de próximo token desacoplada por pista, el condicionamiento progresivo estructural y una receta de preentrenamiento multitarea y multifásica. El aprendizaje en contexto mejorado permite la transferencia de estilo versátil (por ejemplo, de J-Pop a rap en inglés) y la generación bidireccional. Las evaluaciones muestran que YuE iguala o incluso supera a los sistemas propietarios en musicalidad y agilidad vocal. El ajuste fino agrega controles y soporte para idiomas minoritarios. Las representaciones de YuE también sobresalen en tareas de comprensión musical, alcanzando resultados de vanguardia en el benchmark MARBLE.
Leer más