YuE : Modèle de base ouvert pour la génération de musique longue
Des chercheurs présentent YuE, une famille de modèles de base ouverts basés sur l'architecture LLaMA2, qui s'attaque au problème difficile de la génération de chansons à partir de paroles dans le cadre de la génération de musique longue. YuE génère jusqu'à cinq minutes de musique, en maintenant l'alignement des paroles, une structure cohérente et des mélodies entraînantes avec accompagnement. Ceci est réalisé grâce à la prédiction du jeton suivant découplé par piste, au conditionnement progressif structurel et à une recette de pré-entraînement multitâche et multiphasique. L'apprentissage en contexte amélioré permet un transfert de style versatile (par exemple, du J-Pop au rap anglais) et une génération bidirectionnelle. Les évaluations montrent que YuE égale ou dépasse même les systèmes propriétaires en termes de musicalité et d'agilité vocale. L'ajustement fin ajoute des contrôles et un support pour les langues minoritaires. Les représentations de YuE excellent également dans les tâches de compréhension musicale, atteignant des résultats de pointe sur le benchmark MARBLE.