Google Cloudの大規模障害:単純なコードエラーが引き起こした大惨事
2025-06-17

先週発生したGoogle Cloudの大規模障害は、数時間にわたって多くの顧客(Cloudflareを含む)に影響を与えました。その原因は、GoogleのAPI管理制御プレーン内の「サービス制御」コンポーネントにおけるコード変更でした。新しい機能は適切なエラー処理と機能フラグ保護を欠いており、ヌルポインタ例外が発生しました。特定のポリシー変更後に、これがカスケード障害を引き起こし、インフラストラクチャに過負荷がかかりました。Googleは、エラー処理とモニタリングが不十分であったことを認め、外部コミュニケーションと内部プロセスの改善を約束しました。しかし、このインシデントは、テクノロジー大手も大規模障害を避けられないことを示しています。
テクノロジー
コードエラー