OpenAIの大規模クラスタ障害:新たなテレメトリサービスが原因の予期せぬ事態

2024-12-16

OpenAIは12月11日、大規模なサービス停止に見舞われました。原因は、新たに導入されたテレメトリサービスです。このサービスは信頼性の向上を目指していましたが、Kubernetes APIサーバーに予想外の大きな負荷をかけ、サーバーが飽和状態に陥り、多くの大型クラスタでKubernetesコントロールプレーンが停止しました。結果として、DNSベースのサービスディスカバリメカニズムが機能しなくなりました。この事故は、複雑なシステムにおける予期せぬ相互作用と、フルロード時のみ発生する障害モードのテストの難しさを浮き彫りにしています。OpenAIは、クラスタサイズの縮小、Kubernetes管理APIへのネットワークアクセスの遮断、Kubernetes APIサーバーのスケールアップなどの対策でサービスを復旧しました。