Canva 대규모 장애: 과부하와 복원력의 이야기
2025-01-12

Canva는 최근 시스템 과부하로 인한 대규모 장애를 경험했습니다. 새로운 에디터 페이지 배포가 원인이 아니라 Cloudflare CDN의 오래된 규칙으로 인해 아시아 사용자의 JavaScript 파일 로딩 지연이 크게 증가했습니다. 이로 인해 27만 건 이상의 동시 요청이 발생하여 API 게이트웨이에 초당 150만 건의 엄청난 부하가 걸렸습니다. 이는 일반적인 피크의 3배에 달하는 수치입니다. API 게이트웨이에 알려진 성능 문제가 해결되지 않아 상황이 더욱 악화되었습니다. 결국 Linux OOM 킬러가 모든 API 게이트웨이 태스크를 종료시켜 Canva.com이 완전히 다운되었습니다. Canva 엔지니어는 태스크 수를 수동으로 늘리고, Cloudflare 방화벽 규칙을 사용하여 일시적으로 트래픽을 차단하고, 점진적으로 트래픽을 복구하여 문제를 해결했습니다. 이번 사고는 고부하 상황에서 자동화 시스템의 잠재적인 단점과 시스템 복원력의 중요성을 보여줍니다.