Google Cloud 대규모 장애: 간단한 코드 오류로 인한 대참사
2025-06-17

지난주 발생한 Google Cloud 대규모 장애는 수 시간 동안 Cloudflare를 포함한 많은 고객에게 영향을 미쳤습니다. 원인은 Google의 API 관리 제어 플레인 내의 "서비스 제어" 구성 요소의 코드 변경이었습니다. 새로운 기능은 적절한 오류 처리 및 기능 플래그 보호가 부족하여 NullPointerException이 발생했습니다. 특정 정책 변경 후 이로 인해 연쇄적인 장애가 발생하여 인프라에 과부하가 걸렸습니다. Google은 오류 처리 및 모니터링이 부족했음을 인정하고 외부 커뮤니케이션 및 내부 프로세스 개선을 약속했습니다. 그러나 이번 사건은 기술 대기업도 대규모 장애를 피할 수 없다는 것을 보여줍니다.
기술
코드 오류