Panne massive de l'API Google Cloud : effet domino d'une exception de pointeur nul

2025-06-14

Le 12 juin, les produits Google Cloud et Google Workspace ont subi une panne généralisée due à une augmentation des erreurs 503 dans les requêtes d'API externes. La cause principale était une nouvelle fonctionnalité du système de contrôle des services qui manquait de gestion appropriée des erreurs et de protection par indicateur de fonctionnalité, entraînant une exception de pointeur nul qui a déclenché une défaillance en cascade. Une modification de politique contenant des champs invalides a activé ce défaut, entraînant une interruption de service à l'échelle mondiale. Google a rapidement atténué le problème, mais certaines régions (comme us-central-1) ont connu un rétablissement prolongé en raison d'une surcharge de l'infrastructure. L'incident a mis en évidence des problèmes dans la gestion des erreurs de Google, l'utilisation des indicateurs de fonctionnalité, la modularité de l'architecture du système et la surveillance et la communication, ce qui a conduit à un engagement à mettre en œuvre des améliorations complètes pour éviter la répétition.