MultiFoley:多模态控制的视频引导拟音生成
2024-12-04
MultiFoley模型可以根据视频生成同步的拟音音效,并支持文本、音频和视频等多模态控制。用户可以通过文本提示词生成各种音效,例如干净的滑板轮子旋转声或更具奇幻色彩的狮子咆哮声。模型还可以使用来自音效库或部分视频的参考音频进行调节。MultiFoley 的关键创新在于其在低质量音频的互联网视频数据集和专业SFX录音上的联合训练,实现了高质量、全带宽(48kHz)音频生成。
阅读更多
8