Caída de Canva: Una historia de saturación y resiliencia

2025-01-12
Caída de Canva: Una historia de saturación y resiliencia

Canva sufrió recientemente una gran caída debido a la saturación del sistema. La implementación de una nueva versión de la página del editor no fue la culpable; en cambio, una regla obsoleta de Cloudflare CDN causó una latencia masiva para los usuarios asiáticos que cargaban archivos Javascript. Esto provocó más de 270.000 solicitudes simultáneas, sobrecargando posteriormente la puerta de enlace de la API con 1,5 millones de solicitudes por segundo, tres veces su pico típico. Un error de rendimiento conocido, pero no corregido, en la puerta de enlace de la API agravó el problema. El asesino de memoria OOM de Linux terminó todas las tareas de la puerta de enlace de la API, lo que provocó la falla completa de Canva.com. Los ingenieros de Canva resolvieron el problema aumentando manualmente el recuento de tareas, bloqueando temporalmente el tráfico mediante reglas de firewall de Cloudflare y restaurando gradualmente el tráfico. Este incidente destaca la importancia de la resiliencia del sistema y las posibles desventajas de los sistemas automatizados bajo carga pesada.