Google DeepMind发布Veo 2:AI视频生成技术新突破

2024-12-16

Google DeepMind近日发布了其最新AI视频生成模型Veo 2,该模型在逼真度、细节和运动表现方面取得了显著进步,能够根据复杂的指令生成高质量的4K视频。Veo 2超越了其他领先的AI视频生成模型,其生成视频的真实感和对指令的准确遵循能力都得到了提升。从极近景拍摄的DJ特写到展现细腻物理效果的美食场景,Veo 2展现了其在不同风格和场景下的强大能力,标志着AI视频生成技术迈入了新的里程碑。

阅读更多

Genie 2:谷歌DeepMind推出大规模基础世界模型

2024-12-05

谷歌DeepMind发布了Genie 2,这是一个可以生成无限多样3D环境的基础世界模型,用于训练和评估具身代理。Genie 2基于单张图片提示,即可生成可由人类或AI代理通过键盘和鼠标进行交互的世界。该模型具有多种涌现能力,例如物体交互、角色动画、物理效果等,并能生成长达一分钟的连贯世界。Genie 2还可以用于快速原型设计,方便研究人员测试新的环境和训练AI代理。

阅读更多
未分类 3D环境

拓展音频生成技术前沿

2024-10-30

谷歌DeepMind正在推进音频生成技术,开发出能够根据文本、节奏控制和特定声音等输入创建高质量自然语音的模型。该技术已应用于Gemini Live、Project Astra、Journey Voices和YouTube的自动配音等谷歌产品中,为用户带来更自然、更具对话性和直观性的数字助理和AI工具体验。最新研究成果可以生成2分钟的多人对话,音质更好,说话人一致性更强,且生成速度更快。此外,谷歌还开发了一种新的语音编解码器,在不影响输出质量的情况下,能将音频压缩成每秒低至600位的令牌序列,并结合Transformer架构和大量语音数据训练,实现了更长、更自然的对话生成。同时,SynthID技术也被用于水印AI生成的音频内容,以防止技术滥用。未来,谷歌将致力于提高模型的表现力、音质,并添加更多对韵律等特征的细粒度控制,探索如何将其与视频等其他模态结合。

阅读更多
未分类

AlphaChip 如何变革计算机芯片设计

2024-09-28

谷歌DeepMind的AlphaChip是一种强化学习方法,用于设计芯片布局,可以加速和优化芯片设计。AlphaChip已被用于设计谷歌定制AI加速器TPU的最新三代中的超人类芯片布局。AlphaChip的工作原理类似于AlphaGo和AlphaZero,它将芯片布局设计视为一种游戏,并通过放置电路组件并根据最终布局的质量获得奖励来学习。AlphaChip已被证明可以生成优于人类设计的布局,并已应用于各种芯片设计,包括谷歌的TPU、Axion处理器和MediaTek的Dimensity旗舰5G芯片。

阅读更多
未分类 AlphaChip

AlphaProteo:谷歌DeepMind发布用于生物和健康研究的新型蛋白质生成AI系统

2024-09-06

谷歌DeepMind发布了AlphaProteo,这是一个用于设计新型蛋白质的AI系统,能够生成与目标分子成功结合的蛋白质,可用于药物设计、疾病理解等领域。AlphaProteo在七种目标蛋白质上取得了比现有方法高3到300倍的结合亲和力,并已成功设计出针对多种目标蛋白质的结合剂,包括与癌症和糖尿病并发症相关的VEGF-A。

阅读更多

AI 在解决国际数学奥林匹克竞赛问题上达到银牌水平

2024-07-25

Google DeepMind 开发的新型人工智能系统 AlphaProof 和 AlphaGeometry 2 在解决高级数学推理问题方面取得了突破,在今年的国际数学奥林匹克竞赛(IMO)中解决了六道题中的四道,首次达到了银牌选手的水平。AlphaProof 擅长形式数学推理,而 AlphaGeometry 2 则专注于解决几何问题。这些系统经过大量训练数据的训练,能够理解和解决复杂的数学问题,标志着人工智能在数学推理领域的重大进步。

阅读更多
未分类 AlphaGeometry

谷歌 DeepMind 推出全新视频转音频技术 V2A

2024-06-21

谷歌 DeepMind 团队研发了一种名为 V2A 的视频转音频技术,可以根据视频画面和文字提示生成与之匹配的音效、配乐和对话。该技术采用了扩散模型,能够理解原始像素并根据文字提示生成同步且逼真的音频。V2A 可应用于为无声电影、历史影像等生成音轨,并能根据用户需求进行调整。目前该技术仍在进一步研究中,以解决音频质量依赖视频质量、唇形同步等问题。

阅读更多
未分类

Gemini Flash:谷歌DeepMind推出的轻量级模型

2024-05-14

Gemini Flash是谷歌DeepMind最新推出的轻量级AI模型,主打速度和效率。它拥有高达一百万个token的上下文窗口,能够处理一小时的视频、11小时的音频以及超过3万行代码。Flash在大多数常见任务上,能以更低的成本实现与大型模型相当的质量,并且平均首个token延迟低于一秒。

阅读更多
未分类 模型

Veo:谷歌 DeepMind 最强大的生成视频模型

2024-05-14

Veo是谷歌DeepMind迄今为止功能最强大的视频生成模型,能够生成高质量、1080p分辨率、时长超过一分钟的视频,并涵盖各种电影和视觉风格。它能够准确捕捉提示的细微差别和语气,并提供前所未有的创意控制水平,理解各种电影效果的提示,例如延时摄影或景观航拍。Veo将帮助创建让每个人都能制作视频的工具,为故事讲述、教育等领域开启新的可能性。

阅读更多
未分类 DeepMind