Falha em Grande Escala no OpenAI: Novo Serviço de Telemetria Causa Interrupção

2024-12-16

O OpenAI sofreu uma grande interrupção de serviço em 11 de dezembro, devido a um novo serviço de telemetria recentemente implantado. Com a intenção de melhorar a confiabilidade, esse serviço gerou inesperadamente uma carga maciça nos servidores da API do Kubernetes, saturando-os e fazendo com que o plano de controle do Kubernetes falhasse na maioria dos grandes clusters. Isso levou à quebra da descoberta de serviço baseada em DNS. O incidente destaca as interações imprevisíveis em sistemas complexos e os desafios de testar modos de falha que aparecem apenas sob carga total. O OpenAI restaurou o serviço reduzindo o tamanho dos clusters, bloqueando o acesso à rede às APIs administrativas do Kubernetes e escalonando os servidores da API.