Canvaの大規模障害:飽和とレジリエンスの物語

2025-01-12
Canvaの大規模障害:飽和とレジリエンスの物語

Canvaは最近、システムの飽和が原因の大規模障害に見舞われました。新しいエディターページのデプロイが原因ではなく、Cloudflare CDNの古いルールが、アジアのユーザーがJavaScriptファイルを読み込む際の遅延を大幅に増加させたことが原因でした。これにより、27万件以上の同時リクエストが発生し、APIゲートウェイが毎秒150万件のリクエストという莫大な負荷を受けました。これは通常のピーク時の3倍です。APIゲートウェイにおける既知の、しかし修正されていないパフォーマンスの問題が状況を悪化させました。最終的に、LinuxのOOMキラーがすべてのAPIゲートウェイタスクを終了させ、Canva.comは完全にダウンしました。Canvaのエンジニアは、タスク数を手動で増やし、Cloudflareのファイアウォールルールを使って一時的にトラフィックを遮断し、徐々にトラフィックを復旧させることで、問題を解決しました。このインシデントは、システムのレジリエンスの重要性と、高負荷時の自動化システムの潜在的な欠点を浮き彫りにしています。

テクノロジー システムレジリエンス