Massenausfall der Google Cloud API: Kaskadeneffekt durch Nullzeiger-Ausnahme

2025-06-14

Am 12. Juni erlitten Google Cloud und Google Workspace Produkte einen großflächigen Ausfall aufgrund einer Häufung von 503 Fehlern bei externen API-Anfragen. Die Ursache war ein neues Feature im Service Control System, dem eine angemessene Fehlerbehandlung und Feature-Flag-Protection fehlte, was zu einer Nullzeiger-Ausnahme und einem Kaskadeneffekt führte. Eine Policy-Änderung mit ungültigen Feldern aktivierte diesen Fehler, was zu einer globalen Serviceunterbrechung führte. Google behob das Problem schnell, aber einige Regionen (wie us-central-1) erlebten aufgrund von Überlastung der Infrastruktur eine längere Wiederherstellung. Der Vorfall zeigte Probleme bei Googles Fehlerbehandlung, der Verwendung von Feature-Flags, der Modularität der Systemarchitektur sowie bei der Überwachung und Kommunikation, was zu dem Versprechen führte, umfassende Verbesserungen zu implementieren, um Wiederholungen zu vermeiden.