Panne de Canva : un récit de saturation et de résilience

2025-01-12
Panne de Canva : un récit de saturation et de résilience

Canva a récemment subi une panne majeure due à la saturation du système. Le déploiement d'une nouvelle version de la page d'édition n'était pas le coupable ; au lieu de cela, une règle obsolète du CDN Cloudflare a provoqué une latence massive pour les utilisateurs asiatiques téléchargeant des fichiers Javascript. Cela a déclenché plus de 270 000 demandes simultanées, surchargeant ensuite la passerelle API avec 1,5 million de demandes par seconde – trois fois son pic habituel. Un problème de performance connu, mais non corrigé, dans la passerelle API a aggravé le problème. L'OOM killer de Linux a terminé toutes les tâches de la passerelle API, entraînant une panne complète de Canva.com. Les ingénieurs de Canva ont résolu le problème en augmentant manuellement le nombre de tâches, en bloquant temporairement le trafic via les règles de pare-feu Cloudflare et en restaurant progressivement le trafic. Cet incident souligne l'importance de la résilience du système et les inconvénients potentiels des systèmes automatisés sous forte charge.

Technologie résilience système