谷歌DeepMind正在推进音频生成技术,开发出能够根据文本、节奏控制和特定声音等输入创建高质量自然语音的模型。该技术已应用于Gemini Live、Project Astra、Journey Voices和YouTube的自动配音等谷歌产品中,为用户带来更自然、更具对话性和直观性的数字助理和AI工具体验。最新研究成果可以生成2分钟的多人对话,音质更好,说话人一致性更强,且生成速度更快。此外,谷歌还开发了一种新的语音编解码器,在不影响输出质量的情况下,能将音频压缩成每秒低至600位的令牌序列,并结合Transformer架构和大量语音数据训练,实现了更长、更自然的对话生成。同时,SynthID技术也被用于水印AI生成的音频内容,以防止技术滥用。未来,谷歌将致力于提高模型的表现力、音质,并添加更多对韵律等特征的细粒度控制,探索如何将其与视频等其他模态结合。