Códec de Audio Interpretable Disperso: Hacia una Representación de Audio Más Intuitiva

2025-02-01

Este artículo presenta un prototipo de codificador de audio que tiene como objetivo codificar el audio como un conjunto disperso de eventos y sus tiempos de ocurrencia. Utiliza supuestos rudimentarios basados en la física para modelar el ataque y la resonancia física tanto del instrumento como de la sala, con la esperanza de fomentar una representación dispersa, parsimoniosa y fácil de interpretar. El modelo funciona eliminando iterativamente energía del espectrograma de entrada, produciendo vectores de eventos y vectores one-hot que representan el tiempo de ocurrencia. El decodificador utiliza estos vectores para reconstruir el audio. Los resultados experimentales muestran la capacidad del modelo para descomponer el audio, pero hay margen de mejora, como mejorar la calidad de la reconstrucción y reducir los eventos redundantes.