오션게이트 참사: 책임이 실패할 때

2025-08-24
오션게이트 참사: 책임이 실패할 때

오션게이트 잠수함 폭발 사고 조사 보고서는 여러 차례 '책임'을 언급하지만, 이 글에서는 그것이 만병통치약이 아니라고 주장합니다. 이 글은 문제를 두 가지 유형으로 분류합니다. 조정 과제와 잘못된 위험 모델입니다. 조정 과제에서 책임은 시스템 문제를 무시하고 개인에게 책임을 묻게 할 수 있습니다. 잘못된 위험 모델에서는 CEO가 잠수함 조종사 역할을 하고 '자신의 목숨을 걸었'을지라도, 잘못된 위험 평가가 재앙으로 이어졌습니다. 이 글은 해결책에는 팀 간의 협력과 독립적인 안전 관리가 필요하며, 책임만으로는 부족하다고 주장합니다. 책임은 상반되는 압력에 직면하는 개인을 초래하는 '이중 구속'을 악화시킬 수 있습니다.

더 보기

형식 명세: 명령어를 넘어 소프트웨어 동작 정의하기

2025-07-28
형식 명세: 명령어를 넘어 소프트웨어 동작 정의하기

이 글에서는 형식 명세와 기존 프로그램의 차이점을 자세히 살펴봅니다. 프로그램은 명령어 목록이지만, 형식 명세는 동작의 집합입니다. 저자는 카운터 예시를 사용하여 명세가 모든 올바른 동작을 어떻게 정의하고, 집합 이론을 활용하여 생성기(Init 및 Next)를 통해 무한한 동작 집합을 어떻게 설명하는지 보여줍니다. 이는 프로그래밍에서의 비결정성 개념과 대조됩니다. 형식 명세에서의 비결정성은 동작을 확장할 수 있는 여러 가지 방법을 의미하지만, 프로그램에서의 비결정성은 불확실한 코드 경로를 의미합니다. 이 글에서는 디버깅 및 모델 검사기 오류 해석에 필수적인 동작 집합으로서 형식 명세를 이해하는 중요성을 강조합니다.

더 보기

아마존 알렉사 AI 실패: 취약성 사례 연구

2025-06-11
아마존 알렉사 AI 실패: 취약성 사례 연구

이 글은 아마존 알렉사가 대규모 언어 모델 분야에서 경쟁사들보다 뒤처진 이유를 분석하고, 복원력 엔지니어링(resilience engineering) 관점에서 '취약성' 실패로 해석합니다. 저자는 세 가지 주요 요인을 강조합니다. 중요한 컴퓨팅 리소스에 대한 시기 적절한 접근을 방해하는 비효율적인 리소스 할당, 팀 목표 불일치와 내부 갈등을 조장하는 고도로 분산된 조직 구조, 그리고 AI 연구의 실험적이고 장기적인 특성에 부적합한 구식 고객 중심 접근 방식입니다. 이러한 요인들이 결합하여 아마존의 AI 실패로 이어졌으며, 조직 구조와 리소스 관리에 대한 귀중한 교훈을 제공합니다.

더 보기
AI

근본 원인 분석을 넘어: 복잡한 시스템 오류에 대한 복원력 엔지니어링

2025-05-24
근본 원인 분석을 넘어: 복잡한 시스템 오류에 대한 복원력 엔지니어링

이 글은 복잡한 시스템 오류 분석에서 근본 원인 분석(RCA)의 한계를 비판하며, 그 결함 있는 인과 사슬 모델이 복잡한 시스템에서 여러 요인의 상호 작용으로 인한 오류를 효과적으로 해결하지 못한다고 주장합니다. 저자는 이에 대한 대안으로 복원력 엔지니어링(RE)을 제안합니다. RE는 단일 원인이 아닌 시스템 구성 요소 간의 상호 작용에 중점을 둡니다. RE는 시스템에 항상 수많은 잠재적 오류가 존재함을 인식하고 있으며, 성공은 시스템의 적응력과 오류 허용 능력에 있습니다. 근본 원인을 제거하는 것뿐만 아니라 시스템이 어떻게 오류에 적응하고 대처하는지 이해함으로써 지속적인 개선과 시스템 복원력 향상을 달성합니다.

더 보기

FizzBee: 상호 배제와 Redlock의 함정 모델링

2025-03-22
FizzBee: 상호 배제와 Redlock의 함정 모델링

이 기사는 Starlark 기반의 새로운 형식 사양 언어인 FizzBee를 사용하여 상호 배제 알고리즘을 모델링하고 Redlock 알고리즘의 문제점을 조사한 저자의 경험을 자세히 설명합니다. 중요 구역, 잠금, 임대, 펜싱 토큰을 모델링함으로써 저자는 Redlock의 내결함성의 한계를 밝히고, 궁극적으로 펜싱 토큰이 상호 배제 문제를 완전히 해결하지 못함을 보여줍니다. 저자는 FizzBee의 사용 편의성과 단점을 논의하고 알고리즘 설계에서 형식 사양의 중요성을 강조합니다. 이 실용적인 연습은 저자의 펜싱 토큰에 대한 이해의 미묘한 결함을 예상치 못하게 드러내어 형식적 방법의 가치를 강조합니다.

더 보기

간과되는 '가까스로 피한 사고': 기술 기업의 숨겨진 위험

2025-02-08
간과되는 '가까스로 피한 사고': 기술 기업의 숨겨진 위험

FAA 데이터에 따르면 레이건 공항에서 30건의 아찔한 사고가 발생했습니다. 이 글에서는 기술 기업들이 주요 사고 예방을 우선시하면서 악화될 수 있는 많은 아찔한 사고들을 간과하는 경우가 많다고 주장합니다. 아찔한 사고는 심각한 사고의 전조이지만, 영향이 없기 때문에 종종 무시됩니다. 저자는 아찔한 사고를 심각한 사고만큼 심각하게 받아들이고, 이를 사전에 파악하고 분석하기 위한 메커니즘을 구축할 것을 제안합니다. 여기에는 신뢰성 향상을 위해 보고 및 분석을 장려하는 문화적 변화가 필요합니다.

더 보기
기술 신뢰성

Canva 대규모 장애: 과부하와 복원력의 이야기

2025-01-12
Canva 대규모 장애: 과부하와 복원력의 이야기

Canva는 최근 시스템 과부하로 인한 대규모 장애를 경험했습니다. 새로운 에디터 페이지 배포가 원인이 아니라 Cloudflare CDN의 오래된 규칙으로 인해 아시아 사용자의 JavaScript 파일 로딩 지연이 크게 증가했습니다. 이로 인해 27만 건 이상의 동시 요청이 발생하여 API 게이트웨이에 초당 150만 건의 엄청난 부하가 걸렸습니다. 이는 일반적인 피크의 3배에 달하는 수치입니다. API 게이트웨이에 알려진 성능 문제가 해결되지 않아 상황이 더욱 악화되었습니다. 결국 Linux OOM 킬러가 모든 API 게이트웨이 태스크를 종료시켜 Canva.com이 완전히 다운되었습니다. Canva 엔지니어는 태스크 수를 수동으로 늘리고, Cloudflare 방화벽 규칙을 사용하여 일시적으로 트래픽을 차단하고, 점진적으로 트래픽을 복구하여 문제를 해결했습니다. 이번 사고는 고부하 상황에서 자동화 시스템의 잠재적인 단점과 시스템 복원력의 중요성을 보여줍니다.

더 보기

대시보드 디자인의 미래는?

2024-12-23
대시보드 디자인의 미래는?

본 기사는 현재 대시보드 디자인의 결점을 살펴봅니다. 저자는 기존 대시보드는 대부분 설계가 부족하며, 많은 정보를 처리하기 위해 인간의 시각 시스템을 효과적으로 활용하지 못한다고 지적합니다. 본 기사에서는 80년대와 90년대 대시보드 디자인에 대한 인지 시스템 엔지니어링 연구, 예를 들어 생태적 인터페이스 디자인이나 시각적 모멘텀 등을 검토하고, 현재 업계가 대시보드 디자인 개선에 중점을 두고 있지 않다는 점을 지적합니다. 저자는 대시보드 디자인에 더 많은 관심을 기울이고, 쿼리 기능을 더 적절하게 통합하여 정보 처리 효율성을 높여야 한다고 주장합니다.

더 보기

OpenAI 대규모 클러스터 장애: 새로운 원격 측정 서비스로 인한 예상치 못한 사고

2024-12-16
OpenAI 대규모 클러스터 장애: 새로운 원격 측정 서비스로 인한 예상치 못한 사고

OpenAI는 12월 11일 대규모 서비스 중단을 경험했습니다. 원인은 최근 배포된 새로운 원격 측정 서비스였습니다. 이 서비스는 신뢰성 향상을 목표로 했지만, Kubernetes API 서버에 예상치 못한 큰 부하를 발생시켜 서버가 과부하 상태에 빠졌고, 많은 대규모 클러스터에서 Kubernetes 제어 플레인이 중단되었습니다. 결과적으로 DNS 기반 서비스 검색 메커니즘이 작동하지 않았습니다. 이 사고는 복잡한 시스템에서 예상치 못한 상호 작용과 전체 부하 상태에서만 발생하는 오류 모드 테스트의 어려움을 보여줍니다. OpenAI는 클러스터 크기 축소, Kubernetes 관리 API에 대한 네트워크 액세스 차단, Kubernetes API 서버 확장 등의 조치를 통해 서비스를 복구했습니다.

더 보기