OpenAI 대규모 클러스터 장애: 새로운 원격 측정 서비스로 인한 예상치 못한 사고

2024-12-16

OpenAI는 12월 11일 대규모 서비스 중단을 경험했습니다. 원인은 최근 배포된 새로운 원격 측정 서비스였습니다. 이 서비스는 신뢰성 향상을 목표로 했지만, Kubernetes API 서버에 예상치 못한 큰 부하를 발생시켜 서버가 과부하 상태에 빠졌고, 많은 대규모 클러스터에서 Kubernetes 제어 플레인이 중단되었습니다. 결과적으로 DNS 기반 서비스 검색 메커니즘이 작동하지 않았습니다. 이 사고는 복잡한 시스템에서 예상치 못한 상호 작용과 전체 부하 상태에서만 발생하는 오류 모드 테스트의 어려움을 보여줍니다. OpenAI는 클러스터 크기 축소, Kubernetes 관리 API에 대한 네트워크 액세스 차단, Kubernetes API 서버 확장 등의 조치를 통해 서비스를 복구했습니다.