AudioX: Un Modelo de Transformador de Difusión Unificado para la Generación de Audio y Música a Partir de Cualquier Cosa

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-04-14

Los modelos existentes de generación de audio y música presentan limitaciones como la operación aislada entre modalidades, la escasez de datos de entrenamiento multimodales de alta calidad y la dificultad para integrar entradas diversas. AudioX, un modelo de Transformador de Difusión unificado, aborda estos desafíos generando audio y música generales de alta calidad con control de lenguaje natural flexible y procesamiento fluido de texto, vídeo, imagen, música y audio. Su principal innovación es una estrategia de entrenamiento enmascarado multimodal que mejora el aprendizaje de la representación multimodal. Para superar la escasez de datos, se crearon dos conjuntos de datos exhaustivos: vggsound-caps (190 000 subtítulos de audio) y V2M-caps (6 000 000 subtítulos de música). Experimentos exhaustivos muestran que AudioX iguala o supera a los modelos especializados de vanguardia en versatilidad y en el manejo de diversas modalidades de entrada dentro de una arquitectura unificada.