搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

拓展音频生成技术前沿 (deepmind.google)

谷歌DeepMind正在推进音频生成技术,开发出能够根据文本、节奏控制和特定声音等输入创建高质量自然语音的模型。该技术已应用于Gemini Live、Project Astra、Journey Voices和YouTube的自动配音等谷歌产品中,为用户带来更自然、更具对话性和直观性的数字助理和AI工具体验。最新研究成果可以生成2分钟的多人对话,音质更好,说话人一致性更强,且生成速度更快。此外,谷歌还开发了一种新的语音编解码器,在不影响输出质量的情况下,能将音频压缩成每秒低至600位的令牌序列,并结合Transformer架构和大量语音数据训练,实现了更长、更自然的对话生成。同时,SynthID技术也被用于水印AI生成的音频内容,以防止技术滥用。未来,谷歌将致力于提高模型的表现力、音质,并添加更多对韵律等特征的细粒度控制,探索如何将其与视频等其他模态结合。

AlphaChip 如何变革计算机芯片设计 (deepmind.google)

谷歌DeepMind的AlphaChip是一种强化学习方法,用于设计芯片布局,可以加速和优化芯片设计。AlphaChip已被用于设计谷歌定制AI加速器TPU的最新三代中的超人类芯片布局。AlphaChip的工作原理类似于AlphaGo和AlphaZero,它将芯片布局设计视为一种游戏,并通过放置电路组件并根据最终布局的质量获得奖励来学习。AlphaChip已被证明可以生成优于人类设计的布局,并已应用于各种芯片设计,包括谷歌的TPU、Axion处理器和MediaTek的Dimensity旗舰5G芯片。

AlphaProteo:谷歌DeepMind发布用于生物和健康研究的新型蛋白质生成AI系统 (deepmind.google)

谷歌DeepMind发布了AlphaProteo,这是一个用于设计新型蛋白质的AI系统,能够生成与目标分子成功结合的蛋白质,可用于药物设计、疾病理解等领域。AlphaProteo在七种目标蛋白质上取得了比现有方法高3到300倍的结合亲和力,并已成功设计出针对多种目标蛋白质的结合剂,包括与癌症和糖尿病并发症相关的VEGF-A。

AI 在解决国际数学奥林匹克竞赛问题上达到银牌水平 (deepmind.google)

Google DeepMind 开发的新型人工智能系统 AlphaProof 和 AlphaGeometry 2 在解决高级数学推理问题方面取得了突破,在今年的国际数学奥林匹克竞赛(IMO)中解决了六道题中的四道,首次达到了银牌选手的水平。AlphaProof 擅长形式数学推理,而 AlphaGeometry 2 则专注于解决几何问题。这些系统经过大量训练数据的训练,能够理解和解决复杂的数学问题,标志着人工智能在数学推理领域的重大进步。

谷歌 DeepMind 推出全新视频转音频技术 V2A (deepmind.google)

谷歌 DeepMind 团队研发了一种名为 V2A 的视频转音频技术,可以根据视频画面和文字提示生成与之匹配的音效、配乐和对话。该技术采用了扩散模型,能够理解原始像素并根据文字提示生成同步且逼真的音频。V2A 可应用于为无声电影、历史影像等生成音轨,并能根据用户需求进行调整。目前该技术仍在进一步研究中,以解决音频质量依赖视频质量、唇形同步等问题。

Gemini Flash:谷歌DeepMind推出的轻量级模型 (deepmind.google)

Gemini Flash是谷歌DeepMind最新推出的轻量级AI模型,主打速度和效率。它拥有高达一百万个token的上下文窗口,能够处理一小时的视频、11小时的音频以及超过3万行代码。Flash在大多数常见任务上,能以更低的成本实现与大型模型相当的质量,并且平均首个token延迟低于一秒。

Veo:谷歌 DeepMind 最强大的生成视频模型 (deepmind.google)

Veo是谷歌DeepMind迄今为止功能最强大的视频生成模型,能够生成高质量、1080p分辨率、时长超过一分钟的视频,并涵盖各种电影和视觉风格。它能够准确捕捉提示的细微差别和语气,并提供前所未有的创意控制水平,理解各种电影效果的提示,例如延时摄影或景观航拍。Veo将帮助创建让每个人都能制作视频的工具,为故事讲述、教育等领域开启新的可能性。