Großausfall bei OpenAI: Neuer Telemetrieservice verursacht schwere Störung
OpenAI erlebte am 11. Dezember einen großen Systemausfall, verursacht durch einen neu implementierten Telemetrieservice. Dieser sollte die Zuverlässigkeit verbessern, erzeugte aber unerwartet eine massive Last auf den Kubernetes-API-Servern. Dadurch wurden die Server überlastet, die Kubernetes-Kontrollinstanz in den meisten großen Clustern fiel aus, und die DNS-basierte Serviceerkennung versagte. Der Vorfall unterstreicht die unvorhersehbaren Interaktionen in komplexen Systemen und die Herausforderungen beim Testen von Fehlermodi, die nur unter Volllast auftreten. OpenAI stellte den Dienst wieder her, indem es die Clustergröße reduzierte, den Netzwerkzugriff auf Kubernetes-Admin-APIs blockierte und die Kubernetes-API-Server skalierte.
Mehr lesen