Codec de Áudio Interpretável Esparso: Rumos a uma Representação de Áudio Mais Intuitiva

2025-02-01

Este artigo apresenta um protótipo de codificador de áudio que visa codificar áudio como um conjunto esparso de eventos e seus tempos de ocorrência. Ele utiliza suposições rudimentares baseadas na física para modelar o ataque e a ressonância física tanto do instrumento quanto da sala, esperando-se que isso incentive uma representação esparsa, parcimoniosa e fácil de interpretar. O modelo funciona removendo iterativamente energia do espectrograma de entrada, produzindo vetores de eventos e vetores one-hot representando o tempo de ocorrência. O decodificador usa esses vetores para reconstruir o áudio. Resultados experimentais mostram a capacidade do modelo de decompor áudio, mas há espaço para melhorias, como melhorar a qualidade da reconstrução e reduzir eventos redundantes.