희소하고 해석 가능한 오디오 코덱: 보다 직관적인 오디오 표현을 향하여

2025-02-01

본 논문에서는 오디오를 희소한 이벤트 집합과 해당 발생 시간으로 인코딩하는 것을 목표로 하는 개념 증명 오디오 인코더를 소개합니다. 악기와 방의 공격과 물리적 공진을 모델링하기 위해 기본적인 물리 기반 가정을 활용하여 희소하고, 간결하며, 해석하기 쉬운 표현을 장려할 것으로 기대합니다. 이 모델은 입력 스펙트로그램에서 에너지를 반복적으로 제거하여 작동하며, 이벤트 벡터와 발생 시간을 나타내는 one-hot 벡터를 생성합니다. 디코더는 이러한 벡터를 사용하여 오디오를 재구성합니다. 실험 결과는 이 모델이 오디오를 분해할 수 있음을 보여주지만, 재구성 품질 향상이나 중복 이벤트 감소 등 개선의 여지가 있습니다.

더 보기