AudioX: 모든 것으로부터 오디오 및 음악을 생성하는 통합 확산 트랜스포머 모델

2025-04-14

기존의 오디오 및 음악 생성 모델은 모달리티 간의 독립적인 작동, 고품질의 다중 모달 트레이닝 데이터 부족, 다양한 입력 통합의 어려움 등의 한계를 가지고 있습니다. 통합 확산 트랜스포머 모델인 AudioX는 유연한 자연어 제어와 텍스트, 비디오, 이미지, 음악, 오디오 등의 매끄러운 처리를 통해 고품질의 일반적인 오디오 및 음악을 생성하여 이러한 문제를 해결합니다. 주요 혁신은 다중 모달 표현 학습을 향상시키는 다중 모달 마스킹 트레이닝 전략입니다. 데이터 부족을 극복하기 위해 두 개의 포괄적인 데이터 세트가 생성되었습니다. vggsound-caps(19만 개의 오디오 캡션)와 V2M-caps(600만 개의 음악 캡션)입니다. 광범위한 실험을 통해 AudioX는 통합 아키텍처 내에서 다양한 입력 모달리티와 생성 작업을 처리하는 능력에서 최첨단 전문 모델과 동등하거나 능가하는 것으로 나타났습니다.