谷歌 DeepMind 团队研发了一种名为 V2A 的视频转音频技术,可以根据视频画面和文字提示生成与之匹配的音效、配乐和对话。该技术采用了扩散模型,能够理解原始像素并根据文字提示生成同步且逼真的音频。V2A 可应用于为无声电影、历史影像等生成音轨,并能根据用户需求进行调整。目前该技术仍在进一步研究中,以解决音频质量依赖视频质量、唇形同步等问题。