Webtagr - Technologienummer

Beliebte Tags：

Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Bitmap-Grafiken Alle Tags

Großausfall bei OpenAI: Neuer Telemetrieservice verursacht schwere Störung

2024-12-16

OpenAI erlebte am 11. Dezember einen großen Systemausfall, verursacht durch einen neu implementierten Telemetrieservice. Dieser sollte die Zuverlässigkeit verbessern, erzeugte aber unerwartet eine massive Last auf den Kubernetes-API-Servern. Dadurch wurden die Server überlastet, die Kubernetes-Kontrollinstanz in den meisten großen Clustern fiel aus, und die DNS-basierte Serviceerkennung versagte. Der Vorfall unterstreicht die unvorhersehbaren Interaktionen in komplexen Systemen und die Herausforderungen beim Testen von Fehlermodi, die nur unter Volllast auftreten. OpenAI stellte den Dienst wieder her, indem es die Clustergröße reduzierte, den Netzwerkzugriff auf Kubernetes-Admin-APIs blockierte und die Kubernetes-API-Server skalierte.

(surfingcomplexity.blog)

Entwicklung API-Server-Sättigung Dienstunterbrechung