La Caída Masiva de Google Cloud: Un Simple Error de Código con un Impacto Catastrófico
La caída masiva de Google Cloud la semana pasada, que duró varias horas y afectó a numerosos clientes, incluido Cloudflare, se debió a un cambio de código en el componente "Control de Servicio" del plano de control de gestión de API de Google. La nueva función carecía del manejo de errores adecuado y de la protección de la bandera de características, lo que provocó una excepción de puntero nulo. Esto desencadenó un fallo en cascada tras un cambio de política específico, sobrecargando la infraestructura. Google admitió la falta de manejo de errores y monitoreo adecuados, prometiendo mejorar la comunicación externa y los procesos internos. Sin embargo, el incidente destaca la vulnerabilidad incluso de los gigantes tecnológicos a las caídas a gran escala.