Google Cloudの大規模API障害:ヌルポインタ例外によるドミノ効果
2025-06-14
6月12日、Google CloudとGoogle Workspace製品は、外部APIリクエストで503エラーが急増したため、大規模な障害が発生しました。根本原因は、サービス制御システム(Service Control)の新機能に適切なエラー処理と機能フラグ保護が欠けていたことで、ヌルポインタ例外が連鎖反応を引き起こしました。無効なフィールドを含むポリシー変更がこの欠陥を活性化し、グローバルなサービス中断を招きました。Googleは迅速に問題を軽減しましたが、インフラストラクチャの過負荷により、一部の地域(us-central-1など)では回復に時間がかかりました。このインシデントは、Googleのエラー処理、機能フラグの使用、システムアーキテクチャのモジュール性、監視と通信における問題を浮き彫りにし、再発防止のための包括的な改善策を実施すると約束しました。