Codec audio parcimonieux et interprétable : vers une représentation audio plus intuitive

2025-02-01

Cet article présente un prototype de codeur audio visant à coder l’audio sous forme d’un ensemble parcimonieux d’événements et de leurs instants d’occurrence. Il s’appuie sur des hypothèses rudimentaires basées sur la physique pour modéliser l’attaque et la résonance physique de l’instrument et de la pièce, dans l’espoir d’obtenir une représentation parcimonieuse, facile à interpréter. Le modèle fonctionne en éliminant itérativement l’énergie du spectrogramme d’entrée, produisant des vecteurs d’événements et des vecteurs one-hot représentant l’instant d’occurrence. Le décodeur utilise ces vecteurs pour reconstruire l’audio. Les résultats expérimentaux montrent la capacité du modèle à décomposer l’audio, mais il y a place à amélioration, notamment en améliorant la qualité de la reconstruction et en réduisant les événements redondants.