オーシャンゲート事故:説明責任の失敗

2025-08-24
オーシャンゲート事故:説明責任の失敗

オーシャンゲートの潜水艇爆発事故の調査報告書は繰り返し「説明責任」に触れていますが、この記事ではそれが万能薬ではないと主張しています。この記事は問題を2つの種類に分類しています。調整上の課題と、誤ったリスクモデルです。調整上の課題では、説明責任が、システムの問題を無視して個人に責任を負わせる可能性があります。誤ったリスクモデルでは、CEOが潜水艇の操縦士を務め、「身を挺して」いたとしても、誤ったリスク評価が災害につながりました。この記事は、解決策にはチーム間の協力と独立した安全管理が必要であり、説明責任だけでは不十分であると主張しています。説明責任は、相反する圧力にさらされる個人を招く「二重拘束」を悪化させる可能性があります。

続きを読む
テクノロジー システム安全

形式仕様:命令を超えて、ソフトウェアの振る舞いを定義する

2025-07-28
形式仕様:命令を超えて、ソフトウェアの振る舞いを定義する

この記事では、形式仕様と従来のプログラムの違いを掘り下げています。プログラムは命令のリストですが、形式仕様は振る舞いの集合です。著者はカウンターの例を用いて、仕様がすべての正しい振る舞いをどのように定義し、集合論を利用して、ジェネレータ(InitとNext)を用いて無限の振る舞いの集合を記述するかを示しています。これは、プログラミングにおける非決定性の概念とは対照的です。形式仕様における非決定性は、振る舞いを拡張できる複数の方法を指しますが、プログラムにおける非決定性は、不確かなコードパスを指します。この記事は、形式仕様を振る舞いの集合として理解することの重要性を強調しており、これはデバッグとモデルチェッカーのエラーの解釈に不可欠です。

続きを読む

Amazon AlexaのAI失敗:脆性というケーススタディ

2025-06-11
Amazon AlexaのAI失敗:脆性というケーススタディ

この記事は、AmazonのAlexaが大型言語モデル分野で競合他社に遅れを取った理由を分析し、レジリエンスエンジニアリングにおける「脆性」の失敗として捉えています。著者は、3つの主要な要因を強調しています。重要な計算資源へのタイムリーなアクセスを妨げる非効率的な資源配分、チーム目標の不一致と内部紛争を促進する高度に分散化された組織構造、そしてAI研究の実験的かつ長期的な性質に不向きな時代遅れの顧客中心アプローチです。これらの要因が組み合わさってAmazonのAIの失敗につながり、組織構造と資源管理に関する貴重な教訓を提供しています。

続きを読む
AI

根本原因分析を超えて:複雑系システム障害に対するレジリエンスエンジニアリング

2025-05-24
根本原因分析を超えて:複雑系システム障害に対するレジリエンスエンジニアリング

この記事は、複雑系システムの障害分析における根本原因分析(RCA)の限界を批判し、その欠陥のある因果連鎖モデルが、複雑系システムにおける複数の要因の相互作用によって引き起こされる障害を効果的に解決できないと主張しています。著者はいわゆるレジリエンスエンジニアリング(RE)を代替案として提案しています。REは、単一の原因ではなく、システムコンポーネント間の相互作用に焦点を当てています。REは、システムには常に多数の潜在的な障害が存在することを認識しており、成功はシステムの適応能力とフォールトトレランスにあります。根本原因を取り除くだけでなく、システムがどのように障害に適応し対処するかを理解することで、継続的な改善とシステムのレジリエンス向上を実現します。

続きを読む

FizzBee:相互排他とRedlockの落とし穴のモデリング

2025-03-22
FizzBee:相互排他とRedlockの落とし穴のモデリング

この記事では、Starlarkをベースとした新しい形式仕様言語であるFizzBeeを用いて、相互排他アルゴリズムをモデリングし、Redlockアルゴリズムの問題点を調査した著者の経験について詳述しています。クリティカルセクション、ロック、リース、フェンシングトークンのモデリングを通じて、Redlockのフォールトトレランスにおける限界が明らかになり、最終的にフェンシングトークンが相互排他問題を完全に解決するわけではないことが示されています。著者は、FizzBeeの使いやすさと欠点について議論し、アルゴリズム設計における形式仕様の重要性を強調しています。この実践的な演習は、著者のフェンシングトークンに関する理解における微妙な欠陥を意外にも明らかにし、形式的手法の価値を強調しています。

続きを読む
開発 相互排他

ニアミスを無視することの危険性:テック企業への隠れたリスク

2025-02-08
ニアミスを無視することの危険性:テック企業への隠れたリスク

FAAのデータは、レーガン空港で30件のニアミスがあったことを明らかにしています。この記事では、テクノロジー企業が重大なインシデントの予防を優先し、悪化する可能性のある多くのニアミスを見過ごしていることが多いと主張しています。ニアミスは、重大なインシデントの前兆であり、影響がないため、しばしば無視されます。著者は、ニアミスを重大なインシデントと同じくらい真剣に扱い、それらを積極的に特定し分析するためのメカニズムを作成することを提唱しています。これには、信頼性を向上させるために、報告と分析を促進する文化的変化が必要です。

続きを読む
テクノロジー 信頼性

Canvaの大規模障害:飽和とレジリエンスの物語

2025-01-12
Canvaの大規模障害:飽和とレジリエンスの物語

Canvaは最近、システムの飽和が原因の大規模障害に見舞われました。新しいエディターページのデプロイが原因ではなく、Cloudflare CDNの古いルールが、アジアのユーザーがJavaScriptファイルを読み込む際の遅延を大幅に増加させたことが原因でした。これにより、27万件以上の同時リクエストが発生し、APIゲートウェイが毎秒150万件のリクエストという莫大な負荷を受けました。これは通常のピーク時の3倍です。APIゲートウェイにおける既知の、しかし修正されていないパフォーマンスの問題が状況を悪化させました。最終的に、LinuxのOOMキラーがすべてのAPIゲートウェイタスクを終了させ、Canva.comは完全にダウンしました。Canvaのエンジニアは、タスク数を手動で増やし、Cloudflareのファイアウォールルールを使って一時的にトラフィックを遮断し、徐々にトラフィックを復旧させることで、問題を解決しました。このインシデントは、システムのレジリエンスの重要性と、高負荷時の自動化システムの潜在的な欠点を浮き彫りにしています。

続きを読む
テクノロジー システムレジリエンス

ダッシュボードデザインの行方?

2024-12-23
ダッシュボードデザインの行方?

この記事では、現在のダッシュボードデザインの欠点を考察しています。著者は、既存のダッシュボードは多くの場合、設計が不十分で、大量の情報を処理するために人間の視覚システムを効果的に活用できていないと指摘しています。この記事では、80年代と90年代のダッシュボードデザインに関する認知システムエンジニアリングの研究、例えば、生態学的インターフェースデザインや視覚的モーメンタムなどをレビューし、現在の業界がダッシュボードデザインの改善に重点を置いていないことを指摘しています。著者は、ダッシュボードデザインにより多くの注意を払い、クエリ機能をより適切に統合し、情報処理の効率性を向上させるよう求めています。

続きを読む

OpenAIの大規模クラスタ障害:新たなテレメトリサービスが原因の予期せぬ事態

2024-12-16
OpenAIの大規模クラスタ障害:新たなテレメトリサービスが原因の予期せぬ事態

OpenAIは12月11日、大規模なサービス停止に見舞われました。原因は、新たに導入されたテレメトリサービスです。このサービスは信頼性の向上を目指していましたが、Kubernetes APIサーバーに予想外の大きな負荷をかけ、サーバーが飽和状態に陥り、多くの大型クラスタでKubernetesコントロールプレーンが停止しました。結果として、DNSベースのサービスディスカバリメカニズムが機能しなくなりました。この事故は、複雑なシステムにおける予期せぬ相互作用と、フルロード時のみ発生する障害モードのテストの難しさを浮き彫りにしています。OpenAIは、クラスタサイズの縮小、Kubernetes管理APIへのネットワークアクセスの遮断、Kubernetes APIサーバーのスケールアップなどの対策でサービスを復旧しました。

続きを読む