サーバーの再起動失敗:冷却再起動でカーネルクラッシュを解決

2024-12-25

著者は、単純な再起動では解決できないカーネルクラッシュが発生した2台の同一モデルのサーバーに遭遇しました。クラッシュ時、サーバーはシステムファームウェア段階で一連のマシンチェック例外エラーを出力し、CPUハードウェアの問題を示唆していました。電源をオフにして数分間放置した後、再起動することで問題が解決しました。これは、短い停電でも一部のx86システムコンポーネントが完全にリセットされないことを示しており、完全な復旧には冷却時間が必要であることを示しています。