发声的图像

2024-05-21

本文介绍了一种利用扩散模型生成既像自然图像又像自然音频的声谱图的方法。该方法采用预训练的文本到图像和文本到声谱图扩散模型,并在共享的潜在空间中进行操作。通过在反向过程中同时使用音频和图像扩散模型对噪声潜在变量进行去噪,最终生成既符合所需音频提示又具有所需图像外观的声谱图。