2014年のFacebook大規模障害:なぜ「ウォー・ルーム」は徹底的な調査に不向きなのか
2025-02-23
著者は、2014年8月1日に発生した、社内では「警察を呼ぶ」と呼ばれたFacebookの大規模障害について語ります。狭くて暑苦しい「ウォー・ルーム」では、根本原因を効果的に調査することが不可能だとわかりました。結局、快適な自分の作業スペースに戻り、18日間の調査の後、問題の原因を特定しました。「fbagent」というプロセスが誤ってすべてのプロセスに終了信号を送信したことが、システム障害の原因でした。この経験は、緊急時における適切な個人作業環境の重要性と、迅速な修正よりも徹底的な調査の価値を浮き彫りにしています。