谷歌云大规模宕机:一个简单的代码错误引发的血案

2025-06-17
谷歌云大规模宕机:一个简单的代码错误引发的血案

谷歌云上周遭遇大规模宕机,持续数小时,影响众多客户,甚至波及Cloudflare。根源在于谷歌API管理控制平面中的一个“服务控制”组件的代码变更。新功能缺少错误处理和特性标志保护,导致空指针异常,最终在特定策略变更后引发级联故障,使基础设施过载。谷歌承认其缺乏充分的错误处理和监控,并承诺改进外部沟通和内部流程,但这次事故再次暴露了即使是巨头也难以避免大型宕机的现实。

科技 代码错误