Panne majeure chez OpenAI : Un nouveau service de télémétrie provoque une interruption importante
OpenAI a subi une panne majeure le 11 décembre, due à un nouveau service de télémétrie récemment déployé. Destiné à améliorer la fiabilité, ce service a généré de manière inattendue une charge massive sur les serveurs de l'API Kubernetes, saturant les serveurs et provoquant la panne du plan de contrôle Kubernetes dans la plupart des grands clusters. Cela a entraîné la défaillance de la découverte de services basée sur le DNS. L'incident met en évidence les interactions imprévisibles au sein des systèmes complexes et les défis liés au test des modes de défaillance qui n'apparaissent que sous pleine charge. OpenAI a restauré le service en réduisant la taille des clusters, en bloquant l'accès réseau aux API d'administration Kubernetes et en augmentant l'échelle des serveurs d'API.