搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

拓展音频生成技术前沿 (deepmind.google)

谷歌DeepMind正在推进音频生成技术,开发出能够根据文本、节奏控制和特定声音等输入创建高质量自然语音的模型。该技术已应用于Gemini Live、Project Astra、Journey Voices和YouTube的自动配音等谷歌产品中,为用户带来更自然、更具对话性和直观性的数字助理和AI工具体验。最新研究成果可以生成2分钟的多人对话,音质更好,说话人一致性更强,且生成速度更快。此外,谷歌还开发了一种新的语音编解码器,在不影响输出质量的情况下,能将音频压缩成每秒低至600位的令牌序列,并结合Transformer架构和大量语音数据训练,实现了更长、更自然的对话生成。同时,SynthID技术也被用于水印AI生成的音频内容,以防止技术滥用。未来,谷歌将致力于提高模型的表现力、音质,并添加更多对韵律等特征的细粒度控制,探索如何将其与视频等其他模态结合。

评论已经关闭!