GoogleのSRE進化:エラーバジェットからシステム理論へ

2025-01-03

Googleのサイト信頼性エンジニアリング(SRE)チームは、過去25年間で大きな進化を遂げました。当初は、サービスレベル目標(SLO)、エラーバジェット、隔離戦略などの手法に依存していましたが、ますます複雑化するシステムと新たな課題に対処するため、システム理論と制御理論に転換し、STAMPフレームワークを採用しました。STAMPは、個々のコンポーネントの障害の防止から、複雑なシステム間の相互作用の理解と管理へと焦点を移します。この記事では、実例を用いてSTAMPがGoogleのシステムレベルの障害防止にどのように役立つかを説明し、テクノロジー業界全体における将来的な応用を探ります。

続きを読む

Googleの新ローバランスPReQuaL:CPU負荷分散を超えて

2024-12-16

Google ResearchはNSDI 2024で、新しい負荷分散システムPReQuaL(Probing to Reduce Queuing and Latency)を発表しました。従来のCPU負荷分散とは異なり、PReQuaLはサーバーのレイテンシとアクティブなリクエストを積極的にプローブしてサーバーを選択することで、YouTubeなどのシステムにおけるテールレイテンシ、エラー率、リソース消費を大幅に削減します。YouTubeで1年以上運用されており、システム利用率の大幅な向上に貢献しています。この革新的なアプローチは従来の常識に挑戦し、高性能分散システムのための新しいパラダイムを提供します。

続きを読む
開発 負荷分散