Sparser interpretierbarer Audio-Codec: Auf dem Weg zu einer intuitiveren Audiodarstellung

2025-02-01

Dieser Artikel stellt einen Prototyp eines Audio-Encoders vor, der darauf abzielt, Audio als eine spärliche Menge von Ereignissen und deren Auftretenszeiten zu kodieren. Er nutzt rudimentäre physikbasierte Annahmen, um den Anschlag und die physikalische Resonanz sowohl des Instruments als auch des Raums zu modellieren, in der Hoffnung, eine spärliche, sparsame und leicht interpretierbare Darstellung zu fördern. Das Modell funktioniert, indem es iterativ Energie aus dem Eingabespektrogramm entfernt und Ereignisvektoren und One-Hot-Vektoren erzeugt, die die Auftretenszeit darstellen. Der Decoder verwendet diese Vektoren, um das Audio zu rekonstruieren. Experimentelle Ergebnisse zeigen die Fähigkeit des Modells, Audio zu zerlegen, aber es gibt Raum für Verbesserungen, z. B. die Verbesserung der Rekonstruktionsqualität und die Reduzierung redundanter Ereignisse.