AudioX : Un modèle de transformateur de diffusion unifié pour la génération d'audio et de musique à partir de n'importe quoi

2025-04-14

Les modèles existants de génération audio et musicale présentent des limitations telles que le fonctionnement isolé entre les modalités, la rareté des données d'entraînement multimodales de haute qualité et la difficulté à intégrer des entrées diverses. AudioX, un modèle de transformateur de diffusion unifié, répond à ces défis en générant de l'audio et de la musique généraux de haute qualité avec un contrôle flexible du langage naturel et un traitement transparent du texte, de la vidéo, de l'image, de la musique et de l'audio. Son innovation principale est une stratégie d'entraînement masqué multimodale qui améliore l'apprentissage des représentations multimodales. Pour surmonter la rareté des données, deux ensembles de données complets ont été créés : vggsound-caps (190 000 légendes audio) et V2M-caps (6 000 000 légendes musicales). Des expériences approfondies montrent qu'AudioX égale ou surpasse les modèles spécialisés de pointe en termes de polyvalence et de gestion de diverses modalités d'entrée au sein d'une architecture unifiée.