Trillium TPU 正式发布
谷歌宣布其第六代TPU——Trillium正式发布,并已用于训练Gemini 2.0。Trillium TPU作为AI Hypercomputer的关键组件,在训练、微调和推理方面性能显著提升,能效更高。与上一代相比,Trillium在训练性能、推理吞吐量、能效和每芯片峰值计算性能等方面均有大幅提升,并可扩展至数十万芯片。它在大型语言模型训练、推理、嵌入密集型模型等方面表现出色,并提供更高的性价比。
阅读更多
谷歌宣布其第六代TPU——Trillium正式发布,并已用于训练Gemini 2.0。Trillium TPU作为AI Hypercomputer的关键组件,在训练、微调和推理方面性能显著提升,能效更高。与上一代相比,Trillium在训练性能、推理吞吐量、能效和每芯片峰值计算性能等方面均有大幅提升,并可扩展至数十万芯片。它在大型语言模型训练、推理、嵌入密集型模型等方面表现出色,并提供更高的性价比。
阅读更多
谷歌云宣布在 Vertex AI 平台上推出 Veo 和 Imagen 3,分别是其最先进的视频和图像生成模型。Veo 现已在 Vertex AI 上提供私有预览,可根据文本或图像提示生成高质量视频,是首个超大规模供应商提供的图像到视频模型。Imagen 3 将于下周向所有 Vertex AI 客户提供,可根据文本提示生成高质量图像,在细节、光照和伪影减少方面超越了之前的版本。Vertex AI 提供了一个编排平台,可轻松定制、评估性能并在领先的基础设施上部署这些模型。Veo 和 Imagen 3 的开发和部署优先考虑安全性和责任,并内置了数字水印、安全过滤器和数据治理等预防措施。多家公司如亿滋国际、WPP、Agoda 和 Quora 等已将这些模型用于内容创作、营销和产品设计等方面,显著提高了效率和创造力。
阅读更多
谷歌云的Jupiter数据中心网络架构历经25年发展,现已达到每秒13PB的双向带宽。该网络最初相对简单,但随着用户和服务需求的指数级增长,谷歌进行了多次工程创新,最终实现了Jupiter的第五代架构。Jupiter网络支持在同一网络结构内的10万多台服务器上任意放置大规模作业,并具有可预测的低延迟、软件定义和以系统为中心的特点。该网络的可靠性比之前的版本提高了50倍,并已在全球范围内部署,支持谷歌云客户和大型机器学习基础设施。谷歌还在展望下一代网络基础设施,以支持AI时代的需求,例如为即将推出的A3 Ultra VM提供网络支持。
阅读更多
为了满足人工智能计算日益增长的需求,谷歌开发了专用芯片张量处理单元(TPU)。从2015年第一代TPU v1应用于语音识别功能,到如今第六代TPU Trillium用于训练尖端人工智能模型,TPU不断提升性能和效率,支撑着谷歌几乎所有产品的AI功能。TPU的发展历程与谷歌在机器学习和人工智能方面的创新密切相关,从专注于推理到构建训练超级计算机,TPU不断演进以满足不断变化的需求。
阅读更多
本文旨在全面介绍 Google Cloud Composer 上 Airflow 的并发机制,涵盖 Composer 环境、Airflow 安装、DAG 和任务四个层面。文章详细解释了每个层级的并发配置选项,例如 worker 数量、worker_concurrency、parallelism、max_active_runs_per_dag 等,并通过图表和示例代码演示如何调整这些设置以优化资源利用率和任务执行效率。此外,文章还重点讲解了可延迟操作符、触发器以及传感器模式等概念,帮助读者更好地管理空闲时间、提高资源利用率。
阅读更多
谷歌宣布推出谷歌分布式云离线设备,该设备为战术边缘环境(如灾区、偏远研究站和长途货运业务)提供云计算和人工智能功能。它获得了国防部 (DoD) 影响级别 5 (IL5) 认证,并提供强大的 AI 功能、坚固耐用的设计、完全隔离、集成云服务和数据安全性。
阅读更多
平台工程是一种相对较新的软件交付方法,它通过构建软件来自动执行软件交付过程,从而减轻开发人员的认知负担,并提高软件交付的速度和可靠性。平台工程与开发者门户、DevOps、自动化和PaaS等概念既有联系又有区别。
阅读更多
本文详细介绍了谷歌云近期发生的一起影响其客户UniSuper的GCVE(Google Cloud VMware Engine)服务事故。事故原因是谷歌运营人员在使用内部工具部署客户GCVE私有云时,由于参数配置错误,导致系统默认在一年后自动删除该私有云。此次事件仅影响了该客户的这一个GCVE私有云,没有其他客户受到影响。谷歌云已采取措施纠正了系统行为,并弃用了相关内部工具,确保此类事件不再发生。
阅读更多