这篇文章探讨了扩散模型与自回归模型之间的关系,特别是图像生成领域。作者通过对图像频谱进行分析,发现扩散模型的去噪过程实际上是在逐步过滤掉高频信息,类似于频谱空间中的自回归。文章进一步分析了声音信号的频谱特性,发现其并不完全符合图像频谱的规律,因此扩散模型在音频领域的应用存在局限性。最后,作者展望了未来多模态生成模型的发展趋势,认为自回归模型和扩散模型需要进一步融合。