スパースで解釈可能なオーディオコーデック:より直感的なオーディオ表現に向けて

2025-02-01

本論文では、オーディオをスパースなイベント集合とその発生時刻として符号化することを目指した、概念実証的なオーディオエンコーダを紹介しています。楽器と部屋の両方のアタックと物理的な共鳴をモデル化するために、基本的な物理に基づいた仮定を利用し、スパースで、簡潔で、解釈しやすい表現を促進することを期待しています。このモデルは、入力スペクトログラムからエネルギーを反復的に除去することで機能し、イベントベクトルと発生時刻を表すone-hotベクトルを生成します。デコーダはこれらのベクトルを使用してオーディオを再構成します。実験結果は、このモデルがオーディオを分解できることを示していますが、再構成品質の向上や冗長なイベントの削減など、改善の余地があります。