Evolução do SRE do Google: de Orçamentos de Erros à Teoria de Sistemas

A equipe de Engenharia de Confiabilidade de Sites (SRE) do Google passou por uma evolução significativa nos últimos 25 anos. Inicialmente, ela dependia de métodos como Objetivos de Nível de Serviço (SLOs), orçamentos de erros e estratégias de isolamento. No entanto, diante de sistemas cada vez mais complexos e desafios emergentes, a equipe SRE do Google passou a utilizar a teoria de sistemas e a teoria de controle, adotando a estrutura STAMP. A STAMP muda o foco de evitar falhas de componentes individuais para entender e gerenciar interações complexas do sistema. Este artigo usa um estudo de caso do mundo real para mostrar como a STAMP ajuda o Google a prevenir falhas em nível de sistema e explora suas aplicações futuras em toda a indústria de tecnologia.