AudioX:あらゆるものから音声と音楽を生成する統合拡散トランスフォーマーモデル

2025-04-14

既存の音声と音楽生成モデルは、モダリティ間の独立した動作、高品質なマルチモーダル訓練データの不足、多様な入力の統合の困難など、限界を抱えています。統合拡散トランスフォーマーモデルであるAudioXは、柔軟な自然言語制御とテキスト、ビデオ、画像、音楽、音声などのシームレスな処理により、高品質な汎用音声と音楽を生成することで、これらの課題に対処します。その主要な革新は、クロスモーダル表現学習を向上させるマルチモーダルマスクトレーニング戦略です。データ不足を克服するために、2つの包括的なデータセットが作成されました。vggSound-caps(19万の音声キャプション)とV2M-caps(600万の音楽キャプション)です。広範な実験により、AudioXは、統一アーキテクチャ内で多様な入力モダリティと生成タスクを処理する際の汎用性において、最先端の専門モデルに匹敵するか、それを上回ることが示されています。