谷歌DeepMind正在推进音频生成技术,开发出能够根据文本、节奏控制和特定声音等输入创建高质量自然语音的模型。该技术已应用于Gemini Live、Project Astra、Journey Voices和YouTube的自动配音等谷歌产品中,为用户带来更自然、更具对话性和直观性的数字助理和AI工具体验。最新研究成果可以生成2分钟的多人对话,音质更好,说话人一致性更强,且生成速度更快。此外,谷歌还开发了一种新的语音编解码器,在不影响输出质量的情况下,能将音频压缩成每秒低至600位的令牌序列,并结合Transformer架构和大量语音数据训练,实现了更长、更自然的对话生成。同时,SynthID技术也被用于水印AI生成的音频内容,以防止技术滥用。未来,谷歌将致力于提高模型的表现力、音质,并添加更多对韵律等特征的细粒度控制,探索如何将其与视频等其他模态结合。
谷歌DeepMind的AlphaChip是一种强化学习方法,用于设计芯片布局,可以加速和优化芯片设计。AlphaChip已被用于设计谷歌定制AI加速器TPU的最新三代中的超人类芯片布局。AlphaChip的工作原理类似于AlphaGo和AlphaZero,它将芯片布局设计视为一种游戏,并通过放置电路组件并根据最终布局的质量获得奖励来学习。AlphaChip已被证明可以生成优于人类设计的布局,并已应用于各种芯片设计,包括谷歌的TPU、Axion处理器和MediaTek的Dimensity旗舰5G芯片。
谷歌DeepMind发布了AlphaProteo,这是一个用于设计新型蛋白质的AI系统,能够生成与目标分子成功结合的蛋白质,可用于药物设计、疾病理解等领域。AlphaProteo在七种目标蛋白质上取得了比现有方法高3到300倍的结合亲和力,并已成功设计出针对多种目标蛋白质的结合剂,包括与癌症和糖尿病并发症相关的VEGF-A。
Google DeepMind 开发的新型人工智能系统 AlphaProof 和 AlphaGeometry 2 在解决高级数学推理问题方面取得了突破,在今年的国际数学奥林匹克竞赛(IMO)中解决了六道题中的四道,首次达到了银牌选手的水平。AlphaProof 擅长形式数学推理,而 AlphaGeometry 2 则专注于解决几何问题。这些系统经过大量训练数据的训练,能够理解和解决复杂的数学问题,标志着人工智能在数学推理领域的重大进步。
谷歌 DeepMind 团队研发了一种名为 V2A 的视频转音频技术,可以根据视频画面和文字提示生成与之匹配的音效、配乐和对话。该技术采用了扩散模型,能够理解原始像素并根据文字提示生成同步且逼真的音频。V2A 可应用于为无声电影、历史影像等生成音轨,并能根据用户需求进行调整。目前该技术仍在进一步研究中,以解决音频质量依赖视频质量、唇形同步等问题。
Gemini Flash是谷歌DeepMind最新推出的轻量级AI模型,主打速度和效率。它拥有高达一百万个token的上下文窗口,能够处理一小时的视频、11小时的音频以及超过3万行代码。Flash在大多数常见任务上,能以更低的成本实现与大型模型相当的质量,并且平均首个token延迟低于一秒。
Veo是谷歌DeepMind迄今为止功能最强大的视频生成模型,能够生成高质量、1080p分辨率、时长超过一分钟的视频,并涵盖各种电影和视觉风格。它能够准确捕捉提示的细微差别和语气,并提供前所未有的创意控制水平,理解各种电影效果的提示,例如延时摄影或景观航拍。Veo将帮助创建让每个人都能制作视频的工具,为故事讲述、教育等领域开启新的可能性。