拓展音频生成技术前沿

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2024-10-30

谷歌DeepMind正在推进音频生成技术，开发出能够根据文本、节奏控制和特定声音等输入创建高质量自然语音的模型。该技术已应用于Gemini Live、Project Astra、Journey Voices和YouTube的自动配音等谷歌产品中，为用户带来更自然、更具对话性和直观性的数字助理和AI工具体验。最新研究成果可以生成2分钟的多人对话，音质更好，说话人一致性更强，且生成速度更快。此外，谷歌还开发了一种新的语音编解码器，在不影响输出质量的情况下，能将音频压缩成每秒低至600位的令牌序列，并结合Transformer架构和大量语音数据训练，实现了更长、更自然的对话生成。同时，SynthID技术也被用于水印AI生成的音频内容，以防止技术滥用。未来，谷歌将致力于提高模型的表现力、音质，并添加更多对韵律等特征的细粒度控制，探索如何将其与视频等其他模态结合。

未分类