MultiFoley:多模态控制的视频引导拟音生成

2024-12-04

MultiFoley模型可以根据视频生成同步的拟音音效,并支持文本、音频和视频等多模态控制。用户可以通过文本提示词生成各种音效,例如干净的滑板轮子旋转声或更具奇幻色彩的狮子咆哮声。模型还可以使用来自音效库或部分视频的参考音频进行调节。MultiFoley 的关键创新在于其在低质量音频的互联网视频数据集和专业SFX录音上的联合训练,实现了高质量、全带宽(48kHz)音频生成。

阅读更多

发声的图像

2024-05-21

本文介绍了一种利用扩散模型生成既像自然图像又像自然音频的声谱图的方法。该方法采用预训练的文本到图像和文本到声谱图扩散模型,并在共享的潜在空间中进行操作。通过在反向过程中同时使用音频和图像扩散模型对噪声潜在变量进行去噪,最终生成既符合所需音频提示又具有所需图像外观的声谱图。

阅读更多