Canva大规模宕机:饱和与韧性的另类叙事
2025-01-12

Canva最近遭遇了一次大规模宕机事件,其根本原因在于系统饱和。Canva部署了一个新的编辑器页面版本,但并非代码错误导致宕机,而是由于Cloudflare CDN的一个过时规则导致亚洲用户加载Javascript文件时延迟剧增。这引发了27万个并发请求,随后对API网关造成了每秒150万次请求的巨大压力,远超其处理能力。同时,API网关中一个已知但未修复的性能问题进一步加剧了情况。最终,Linux OOM killer杀死了所有API网关任务,导致Canva网站完全瘫痪。Canva工程师通过手动增加任务数量、使用Cloudflare防火墙规则临时阻断流量以及逐步恢复流量等措施解决了问题。这次事件凸显了系统韧性的重要性,以及在高负载情况下自动化系统可能带来的负面影响。