Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

AudioX: Ein einheitliches Diffusions-Transformer-Modell für die Audio- und Musikgenerierung aus beliebigen Eingaben

2025-04-14

Bestehende Modelle zur Audio- und Musikgenerierung weisen Einschränkungen auf, wie z. B. isolierte Funktionsweise über Modalitäten hinweg, knappe hochwertige multimodale Trainingsdaten und Schwierigkeiten bei der Integration verschiedener Eingaben. AudioX, ein einheitliches Diffusions-Transformer-Modell, begegnet diesen Herausforderungen, indem es hochwertige allgemeine Audio- und Musikdaten mit flexibler Steuerung durch natürliche Sprache und nahtloser Verarbeitung von Text, Video, Bild, Musik und Audio erzeugt. Die wichtigste Innovation ist eine multimodale Maskierungsstrategie für das Training, die das Lernen von multimodalen Repräsentationen verbessert. Um Datenknappheit zu überwinden, wurden zwei umfassende Datensätze erstellt: vggsound-caps (190.000 Audio-Beschriftungen) und V2M-caps (6.000.000 Musik-Beschriftungen). Umfangreiche Experimente zeigen, dass AudioX in Bezug auf Vielseitigkeit und den Umgang mit verschiedenen Eingabemodalitäten in einer einheitlichen Architektur mit den besten spezialisierten Modellen mithalten kann oder diese übertrifft.

(zeyuet.github.io)

KI Musikgenerierung