Queda em massa da API do Google Cloud: efeito cascata de uma exceção de ponteiro nulo
Em 12 de junho, os produtos Google Cloud e Google Workspace sofreram uma interrupção generalizada devido a um aumento de erros 503 em solicitações de API externas. A causa raiz foi um novo recurso no sistema de Controle de Serviço que carecia de tratamento de erros adequado e proteção de sinalizador de recurso, levando a uma exceção de ponteiro nulo que acionou uma falha em cascata. Uma alteração de política contendo campos inválidos ativou essa falha, resultando em uma interrupção de serviço global. O Google mitigou rapidamente o problema, mas algumas regiões (como us-central-1) experimentaram uma recuperação prolongada devido à sobrecarga de infraestrutura. O incidente destacou problemas no tratamento de erros do Google, uso de sinalizadores de recursos, modularidade da arquitetura do sistema e monitoramento e comunicação, levando a um compromisso de implementar melhorias abrangentes para evitar a recorrência.
Leia mais