稀疏可解释音频编解码器:迈向更直观的音频表示
2025-02-01
这篇论文介绍了一种概念验证的音频编码器,该编码器旨在将音频编码为一系列稀疏事件及其发生时间。它利用基本的物理假设来模拟声音的产生和传播,从而获得更简洁易懂的音频表示。该模型通过迭代地从输入频谱图中去除能量来工作,生成事件向量和表示发生时间的one-hot向量。解码器则使用这些向量来重建音频。实验结果显示该模型能够对音频进行分解,但仍存在改进空间,例如提高重建质量和减少冗余事件。
阅读更多
AI
音频编码