Caída masiva de OpenAI: Un nuevo servicio de telemetría causa una interrupción importante

2024-12-16

OpenAI experimentó una interrupción importante del servicio el 11 de diciembre, debido a un nuevo servicio de telemetría recientemente implementado. Con la intención de mejorar la confiabilidad, este servicio generó inesperadamente una carga masiva en los servidores de la API de Kubernetes, saturándolos y causando que el plano de control de Kubernetes fallara en la mayoría de los clústeres grandes. Esto llevó a la ruptura del descubrimiento de servicios basado en DNS. El incidente destaca las interacciones impredecibles dentro de los sistemas complejos y los desafíos de probar los modos de falla que solo aparecen bajo carga total. OpenAI restauró el servicio reduciendo el tamaño de los clústeres, bloqueando el acceso a la red a las API administrativas de Kubernetes y escalando los servidores de la API.