OpenAI大规模集群故障:一次由新监控服务引发的意外

2024-12-16

OpenAI于12月11日遭遇重大服务中断,根源在于新部署的遥测服务。该服务意图提升可靠性,却意外地向Kubernetes API服务器施加了巨大负载,导致API服务器饱和,进而使大多数大型集群的Kubernetes控制平面瘫痪,最终破坏了基于DNS的服务发现机制。这次事故凸显了复杂系统中意想不到的交互作用以及全负载条件下才能暴露的问题。OpenAI通过缩减集群规模、阻止对Kubernetes管理API的网络访问以及扩展Kubernetes API服务器等手段恢复了服务。