AudioX: Ein einheitliches Diffusions-Transformer-Modell für die Audio- und Musikgenerierung aus beliebigen Eingaben
Bestehende Modelle zur Audio- und Musikgenerierung weisen Einschränkungen auf, wie z. B. isolierte Funktionsweise über Modalitäten hinweg, knappe hochwertige multimodale Trainingsdaten und Schwierigkeiten bei der Integration verschiedener Eingaben. AudioX, ein einheitliches Diffusions-Transformer-Modell, begegnet diesen Herausforderungen, indem es hochwertige allgemeine Audio- und Musikdaten mit flexibler Steuerung durch natürliche Sprache und nahtloser Verarbeitung von Text, Video, Bild, Musik und Audio erzeugt. Die wichtigste Innovation ist eine multimodale Maskierungsstrategie für das Training, die das Lernen von multimodalen Repräsentationen verbessert. Um Datenknappheit zu überwinden, wurden zwei umfassende Datensätze erstellt: vggsound-caps (190.000 Audio-Beschriftungen) und V2M-caps (6.000.000 Musik-Beschriftungen). Umfangreiche Experimente zeigen, dass AudioX in Bezug auf Vielseitigkeit und den Umgang mit verschiedenen Eingabemodalitäten in einer einheitlichen Architektur mit den besten spezialisierten Modellen mithalten kann oder diese übertrifft.