A Queda do Canva: Uma História de Saturação e Resiliência

A Canva sofreu recentemente uma grande queda devido à saturação do sistema. A implantação de uma nova versão da página do editor não foi a culpada; em vez disso, uma regra desatualizada do Cloudflare CDN causou latência maciça para os usuários asiáticos carregando arquivos Javascript. Isso desencadeou mais de 270.000 solicitações simultâneas, sobrecarregando posteriormente o gateway da API com 1,5 milhão de solicitações por segundo – três vezes seu pico típico. Um bug de desempenho conhecido, mas não corrigido, no gateway da API agravou o problema. O Linux OOM killer encerrou todas as tarefas do gateway da API, resultando na falha completa do Canva.com. Os engenheiros da Canva resolveram o problema aumentando manualmente a contagem de tarefas, bloqueando temporariamente o tráfego por meio de regras de firewall do Cloudflare e restaurando gradualmente o tráfego. Este incidente destaca a importância da resiliência do sistema e as possíveis desvantagens dos sistemas automatizados sob carga pesada.