Canva-Ausfall: Eine Geschichte von Sättigung und Resilienz

2025-01-12
Canva-Ausfall: Eine Geschichte von Sättigung und Resilienz

Canva erlebte kürzlich einen großen Ausfall aufgrund von Systemüberlastung. Der Rollout einer neuen Editor-Seitenversion war nicht die Ursache; stattdessen führte eine veraltete Regel im Cloudflare CDN zu massiver Latenz bei asiatischen Nutzern, die Javascript-Dateien herunterluden. Dies löste über 270.000 gleichzeitige Anfragen aus, wodurch das API-Gateway mit 1,5 Millionen Anfragen pro Sekunde überlastet wurde – das Dreifache des typischen Spitzenwerts. Ein bekanntes, aber nicht behobenes Leistungsproblem im API-Gateway verschlimmerte das Problem. Der Linux OOM-Killer beendete alle laufenden API-Gateway-Tasks, was zu einem vollständigen Ausfall von Canva.com führte. Die Canva-Ingenieure behoben das Problem, indem sie die gewünschte Task-Anzahl manuell erhöhten, den Traffic vorübergehend mit Cloudflare-Firewall-Regeln blockierten und den Traffic schrittweise wiederherstellten. Dieser Vorfall unterstreicht die Bedeutung von Systemresistenz und die potenziellen Nachteile automatisierter Systeme unter hoher Last.