YuE: Offenes Basismodell für die Generierung von Langform-Musik

2025-08-08

Forscher stellen YuE vor, eine Familie offener Basismodelle, die auf der LLaMA2-Architektur basieren und das schwierige Problem der Liedgenerierung aus Texten im Bereich der Langform-Musikgenerierung angehen. YuE generiert bis zu fünf Minuten Musik und behält dabei die Ausrichtung der Texte, eine kohärente Struktur und mitreißende Melodien mit Begleitung bei. Dies wird durch eine track-entkoppelte Vorhersage des nächsten Tokens, eine strukturelle progressive Konditionierung und ein Multitask-, Multiphasen-Pretraining-Rezept erreicht. Das verbesserte In-Context-Learning ermöglicht einen vielseitigen Stiltransfer (z. B. von japanischem City-Pop zu englischem Rap) und eine bidirektionale Generierung. Evaluierungen zeigen, dass YuE proprietäre Systeme in Bezug auf Musikalität und vokale Agilität erreicht oder sogar übertrifft. Feintuning fügt Steuerelemente und Unterstützung für Randsprachen hinzu. Die gelernten Repräsentationen von YuE zeichnen sich auch bei Musikverständnisaufgaben aus und erzielen State-of-the-Art-Ergebnisse auf dem MARBLE-Benchmark.

Mehr lesen
KI