本文介绍了Google Cloud中区域永久磁盘和Hyperdisk Balanced High Availability(预览版)功能,这些功能允许用户在Compute Engine中实现高可用性(HA)服务。文章详细解释了同步磁盘复制的机制,包括主区域和辅助区域之间的数据同步、副本状态、复制状态以及故障转移过程。此外,还介绍了副本恢复检查点的概念和使用方法,以及复制磁盘的限制和下一步学习资源。
为了满足人工智能计算日益增长的需求,谷歌开发了专用芯片张量处理单元(TPU)。从2015年第一代TPU v1应用于语音识别功能,到如今第六代TPU Trillium用于训练尖端人工智能模型,TPU不断提升性能和效率,支撑着谷歌几乎所有产品的AI功能。TPU的发展历程与谷歌在机器学习和人工智能方面的创新密切相关,从专注于推理到构建训练超级计算机,TPU不断演进以满足不断变化的需求。
本文旨在全面介绍 Google Cloud Composer 上 Airflow 的并发机制,涵盖 Composer 环境、Airflow 安装、DAG 和任务四个层面。文章详细解释了每个层级的并发配置选项,例如 worker 数量、worker_concurrency、parallelism、max_active_runs_per_dag 等,并通过图表和示例代码演示如何调整这些设置以优化资源利用率和任务执行效率。此外,文章还重点讲解了可延迟操作符、触发器以及传感器模式等概念,帮助读者更好地管理空闲时间、提高资源利用率。
谷歌宣布推出谷歌分布式云离线设备,该设备为战术边缘环境(如灾区、偏远研究站和长途货运业务)提供云计算和人工智能功能。它获得了国防部 (DoD) 影响级别 5 (IL5) 认证,并提供强大的 AI 功能、坚固耐用的设计、完全隔离、集成云服务和数据安全性。
平台工程是一种相对较新的软件交付方法,它通过构建软件来自动执行软件交付过程,从而减轻开发人员的认知负担,并提高软件交付的速度和可靠性。平台工程与开发者门户、DevOps、自动化和PaaS等概念既有联系又有区别。
本文详细介绍了谷歌云近期发生的一起影响其客户UniSuper的GCVE(Google Cloud VMware Engine)服务事故。事故原因是谷歌运营人员在使用内部工具部署客户GCVE私有云时,由于参数配置错误,导致系统默认在一年后自动删除该私有云。此次事件仅影响了该客户的这一个GCVE私有云,没有其他客户受到影响。谷歌云已采取措施纠正了系统行为,并弃用了相关内部工具,确保此类事件不再发生。