这篇论文介绍了一种名为“可以听到图像的声音”的新技术,它是一种特殊的频谱图,可以被视为图像并作为声音播放。该技术利用预训练的图像潜在扩散模型 Stable Diffusion v1.5 和预训练的音频潜在扩散模型 Auffusion,并提供三种方法来生成图像:多模态去噪、印记和 SDS。