AudioX: Un Modelo de Transformador de Difusión Unificado para la Generación de Audio y Música a Partir de Cualquier Cosa
Los modelos existentes de generación de audio y música presentan limitaciones como la operación aislada entre modalidades, la escasez de datos de entrenamiento multimodales de alta calidad y la dificultad para integrar entradas diversas. AudioX, un modelo de Transformador de Difusión unificado, aborda estos desafíos generando audio y música generales de alta calidad con control de lenguaje natural flexible y procesamiento fluido de texto, vídeo, imagen, música y audio. Su principal innovación es una estrategia de entrenamiento enmascarado multimodal que mejora el aprendizaje de la representación multimodal. Para superar la escasez de datos, se crearon dos conjuntos de datos exhaustivos: vggsound-caps (190 000 subtítulos de audio) y V2M-caps (6 000 000 subtítulos de música). Experimentos exhaustivos muestran que AudioX iguala o supera a los modelos especializados de vanguardia en versatilidad y en el manejo de diversas modalidades de entrada dentro de una arquitectura unificada.