Google Cloud 대규모 API 장애: Null Pointer 예외의 도미노 효과
2025-06-14
6월 12일, Google Cloud와 Google Workspace 제품은 외부 API 요청에서 503 오류가 급증하여 대규모 장애를 겪었습니다. 근본 원인은 서비스 제어 시스템(Service Control)의 새로운 기능에 적절한 오류 처리 및 기능 플래그 보호가 부족하여 Null Pointer 예외가 연쇄 반응을 일으킨 것입니다. 잘못된 필드가 포함된 정책 변경으로 인해 이 결함이 활성화되어 글로벌 서비스 중단으로 이어졌습니다. Google은 신속하게 문제를 해결했지만, 인프라 과부하로 인해 일부 지역(us-central-1 등)에서는 복구 시간이 길어졌습니다. 이번 사건은 Google의 오류 처리, 기능 플래그 사용, 시스템 아키텍처의 모듈성, 모니터링 및 통신에서의 문제점을 드러냈으며, 재발 방지를 위한 포괄적인 개선 조치를 시행할 것을 약속했습니다.
기술
API 장애