AudioX:一款能从任何输入生成音频和音乐的统一扩散Transformer模型
2025-04-14
现有的音频和音乐生成模型存在局限性,例如缺乏跨模态统一能力、高质量多模态训练数据稀缺以及难以有效整合多种输入。为此,研究人员提出了AudioX,一个统一的扩散Transformer模型,它能够高质量地生成通用音频和音乐,并支持灵活的自然语言控制以及对文本、视频、图像、音乐和音频等多种模态的无缝处理。AudioX的核心创新在于其多模态掩码训练策略,该策略对跨模态的输入进行掩码处理,并迫使模型从掩码输入中学习,从而产生稳健且统一的跨模态表示。为了解决数据稀缺问题,研究人员还创建了两个综合数据集:基于VGGSound数据集的19万个音频字幕的vggSound-caps,以及基于V2M数据集的600万个音乐字幕的V2M-caps。大量的实验表明,AudioX不仅能够匹配或超越最先进的专业模型,而且在统一架构中处理多种输入模态和生成任务方面也具有显著的通用性。
AI