Der massive Google Cloud-Ausfall: Ein einfacher Codefehler mit katastrophalen Folgen
Der massive Ausfall von Google Cloud in der vergangenen Woche, der mehrere Stunden dauerte und zahlreiche Kunden, darunter Cloudflare, betraf, resultierte aus einer Codeänderung im "Service Control"-Komponenten des Google API-Management- und Steuerungsplans. Die neue Funktion enthielt keine angemessene Fehlerbehandlung und keinen Feature-Flag-Schutz, was zu einer Nullzeiger-Ausnahme führte. Dies löste einen Kaskadeneffekt nach einer spezifischen Richtlinienänderung aus und überlastete die Infrastruktur. Google gab zu, dass die Fehlerbehandlung und Überwachung unzureichend waren, und versprach Verbesserungen in der externen Kommunikation und den internen Prozessen. Der Vorfall unterstreicht jedoch die Anfälligkeit selbst von Technologieriesen für großflächige Ausfälle.