AudioX: Um Modelo de Transformador de Difusão Unificado para Geração de Áudio e Música a Partir de Qualquer Coisa

2025-04-14

Modelos existentes de geração de áudio e música sofrem de limitações, como operação isolada entre modalidades, escassez de dados de treinamento multimodais de alta qualidade e dificuldade em integrar entradas diversas. O AudioX, um modelo de Transformador de Difusão unificado, aborda esses desafios gerando áudio e música gerais de alta qualidade com controle de linguagem natural flexível e processamento contínuo de texto, vídeo, imagem, música e áudio. Sua inovação principal é uma estratégia de treinamento mascarado multimodal que aprimora o aprendizado de representação multimodal. Para superar a escassez de dados, dois conjuntos de dados abrangentes foram criados: vggsound-caps (190 mil legendas de áudio) e V2M-caps (6 milhões de legendas de música). Experimentos extensos mostram que o AudioX corresponde ou supera modelos especializados de última geração em versatilidade e no manuseio de diversas modalidades de entrada em uma arquitetura unificada.