Desastre da OceanGate: Quando a responsabilização falha

2025-08-24
Desastre da OceanGate: Quando a responsabilização falha

O relatório de investigação da implosão do submarino OceanGate menciona repetidamente a 'responsabilidade', mas este artigo argumenta que não é uma panacéia. Ele categoriza os problemas em dois tipos: desafios de coordenação e modelos de risco mal calibrados. Nos desafios de coordenação, a responsabilização pode levar a culpar indivíduos enquanto ignora problemas sistêmicos. Com modelos de risco mal calibrados, mesmo com o CEO pilotando o submersible e tendo 'a pele no jogo', uma avaliação de risco incorreta levou ao desastre. O artigo argumenta que as soluções exigem colaboração entre equipes e supervisão de segurança independente, não apenas responsabilidade. A responsabilização pode exacerbar 'dupla vinculação', onde os indivíduos enfrentam pressões conflitantes, levando a riscos de segurança a serem ignorados.

Leia mais

Especificações Formais: Além das Instruções, Definindo Comportamentos de Software

2025-07-28
Especificações Formais: Além das Instruções, Definindo Comportamentos de Software

Esta publicação aprofunda a distinção entre especificações formais e programas tradicionais. Enquanto programas são listas de instruções, especificações formais são conjuntos de comportamentos. Usando um contador como exemplo, o autor ilustra como as especificações definem todos os comportamentos corretos e utilizam a teoria dos conjuntos, empregando geradores (Init e Next) para descrever conjuntos infinitos de comportamentos. Isso contrasta com o conceito de não-determinismo na programação; em especificações formais, não-determinismo refere-se a múltiplas maneiras pelas quais um comportamento pode ser estendido, enquanto em programas, refere-se a caminhos de código incertos. O artigo enfatiza a importância de entender especificações formais como conjuntos de comportamentos, crucial para depuração e interpretação de erros do verificador de modelos.

Leia mais

A Falha da IA do Amazon Alexa: Um Estudo de Caso de Fragilidade

2025-06-11
A Falha da IA do Amazon Alexa: Um Estudo de Caso de Fragilidade

Este artigo analisa por que a Alexa da Amazon ficou para trás dos concorrentes no espaço de modelos de linguagem grandes, enquadrando-a como uma falha de 'fragilidade' dentro da engenharia de resiliência. O autor destaca três fatores contribuintes principais: alocação ineficiente de recursos, dificultando o acesso oportuno a recursos computacionais cruciais; uma estrutura organizacional altamente descentralizada que promove metas de equipe desalinhadas e conflito interno; e uma abordagem centrada no cliente desatualizada, inadequada à natureza experimental e de longo prazo da pesquisa de IA. Esses fatores combinados levaram ao revés da IA da Amazon, oferecendo lições valiosas para estrutura organizacional e gestão de recursos.

Leia mais
IA

Além da Análise da Causa Raiz: Engenharia de Resiliência para Falhas em Sistemas Complexos

2025-05-24
Além da Análise da Causa Raiz: Engenharia de Resiliência para Falhas em Sistemas Complexos

Este artigo critica as limitações da Análise da Causa Raiz (ACR) na análise de falhas em sistemas complexos, argumentando que seu modelo de cadeia causal falho falha em abordar efetivamente as falhas causadas pela interação de múltiplos fatores em sistemas complexos. O autor propõe a Engenharia de Resiliência (ER) como uma alternativa. A ER concentra-se nas interações entre os componentes do sistema, em vez de causas únicas. A ER reconhece que os sistemas sempre contêm inúmeras falhas latentes; o sucesso reside na capacidade adaptativa e na tolerância a falhas do sistema. Ao entender como o sistema se adapta e lida com falhas, em vez de simplesmente eliminar as causas raiz, são alcançadas melhorias contínuas e maior resiliência do sistema.

Leia mais

FizzBee: Modelando Exclusão Mútua e as Armadilhas do Redlock

2025-03-22
FizzBee: Modelando Exclusão Mútua e as Armadilhas do Redlock

Este artigo detalha a experiência do autor usando FizzBee, uma nova linguagem de especificação formal baseada em Starlark, para modelar algoritmos de exclusão mútua e investigar problemas com o algoritmo Redlock. Ao modelar seções críticas, bloqueios, locações e tokens de cerca, o autor revela limitações na tolerância a falhas do Redlock, mostrando finalmente que os tokens de cerca não resolvem completamente os problemas de exclusão mútua. O autor conclui discutindo a facilidade de uso e as deficiências do FizzBee, destacando a importância da especificação formal no projeto de algoritmos. O exercício prático revelou inesperadamente falhas sutis na compreensão do autor sobre tokens de cerca, sublinhando o valor dos métodos formais.

Leia mais
Desenvolvimento exclusão mútua

Ignorando quase-acidentes: um risco oculto para empresas de tecnologia

2025-02-08
Ignorando quase-acidentes: um risco oculto para empresas de tecnologia

Dados da FAA revelam 30 quase-acidentes no aeroporto Reagan. Este artigo argumenta que empresas de tecnologia frequentemente priorizam a prevenção de incidentes graves, ignorando os numerosos quase-acidentes que poderiam se agravar. Quase-acidentes, precursores de incidentes significativos, são frequentemente ignorados devido ao seu impacto zero. O autor defende o tratamento de quase-acidentes com a mesma seriedade que os incidentes graves, criando mecanismos para identificá-los e analisá-los proativamente. Isso requer uma mudança cultural, incentivando a notificação e análise para melhorar a confiabilidade.

Leia mais
Tecnologia confiabilidade

A Queda do Canva: Uma História de Saturação e Resiliência

2025-01-12
A Queda do Canva: Uma História de Saturação e Resiliência

A Canva sofreu recentemente uma grande queda devido à saturação do sistema. A implantação de uma nova versão da página do editor não foi a culpada; em vez disso, uma regra desatualizada do Cloudflare CDN causou latência maciça para os usuários asiáticos carregando arquivos Javascript. Isso desencadeou mais de 270.000 solicitações simultâneas, sobrecarregando posteriormente o gateway da API com 1,5 milhão de solicitações por segundo – três vezes seu pico típico. Um bug de desempenho conhecido, mas não corrigido, no gateway da API agravou o problema. O Linux OOM killer encerrou todas as tarefas do gateway da API, resultando na falha completa do Canva.com. Os engenheiros da Canva resolveram o problema aumentando manualmente a contagem de tarefas, bloqueando temporariamente o tráfego por meio de regras de firewall do Cloudflare e restaurando gradualmente o tráfego. Este incidente destaca a importância da resiliência do sistema e as possíveis desvantagens dos sistemas automatizados sob carga pesada.

Leia mais

Para onde vai o design de dashboards?

2024-12-23
Para onde vai o design de dashboards?

Este artigo explora as deficiências do design atual de dashboards. O autor aponta que os dashboards existentes são frequentemente mal projetados e falham em utilizar eficazmente o sistema visual humano para processar grandes quantidades de informações. O artigo revisa pesquisas de engenharia de sistemas cognitivos dos anos 80 e 90 sobre o design de dashboards, como o design de interface ecológica e o momentum visual, e observa a falta de foco atual da indústria em melhorar o design de dashboards. O autor apela para maior atenção ao design de dashboards, para melhor integrar funções de consulta e melhorar a eficiência do processamento de informações.

Leia mais

Falha em Grande Escala no OpenAI: Novo Serviço de Telemetria Causa Interrupção

2024-12-16
Falha em Grande Escala no OpenAI: Novo Serviço de Telemetria Causa Interrupção

O OpenAI sofreu uma grande interrupção de serviço em 11 de dezembro, devido a um novo serviço de telemetria recentemente implantado. Com a intenção de melhorar a confiabilidade, esse serviço gerou inesperadamente uma carga maciça nos servidores da API do Kubernetes, saturando-os e fazendo com que o plano de controle do Kubernetes falhasse na maioria dos grandes clusters. Isso levou à quebra da descoberta de serviço baseada em DNS. O incidente destaca as interações imprevisíveis em sistemas complexos e os desafios de testar modos de falha que aparecem apenas sob carga total. O OpenAI restaurou o serviço reduzindo o tamanho dos clusters, bloqueando o acesso à rede às APIs administrativas do Kubernetes e escalonando os servidores da API.

Leia mais