Caída masiva de la API de Google Cloud: efecto dominó de una excepción de puntero nulo

2025-06-14

El 12 de junio, los productos de Google Cloud y Google Workspace sufrieron una interrupción generalizada debido a un aumento de errores 503 en las solicitudes de API externas. La causa raíz fue una nueva función en el sistema de Control de Servicio que carecía de un manejo adecuado de errores y protección de indicadores de función, lo que provocó una excepción de puntero nulo que desencadenó una falla en cascada. Un cambio de política que contenía campos inválidos activó esta falla, lo que resultó en una interrupción del servicio a nivel global. Google mitigó rápidamente el problema, pero algunas regiones (como us-central-1) experimentaron una recuperación prolongada debido a la sobrecarga de infraestructura. El incidente destacó problemas en el manejo de errores de Google, el uso de indicadores de función, la modularidad de la arquitectura del sistema y el monitoreo y la comunicación, lo que llevó a un compromiso de implementar mejoras integrales para evitar que vuelva a ocurrir.