Catastrophe d'OceanGate : Quand la responsabilité échoue

2025-08-24
Catastrophe d'OceanGate : Quand la responsabilité échoue

Le rapport d'enquête sur l'implosion du sous-marin OceanGate mentionne à plusieurs reprises la « responsabilité », mais cet article soutient que ce n'est pas une panacée. Il classe les problèmes en deux catégories : les défis de coordination et les modèles de risque mal calibrés. Dans les défis de coordination, la responsabilité peut conduire à blâmer des individus tout en ignorant les problèmes systémiques. Avec des modèles de risque mal calibrés, même avec le PDG pilotant le submersible et ayant « la peau dans le jeu », une mauvaise évaluation des risques a conduit au désastre. L'article soutient que les solutions nécessitent une collaboration inter-équipes et une supervision de sécurité indépendante, et non seulement la responsabilité. La responsabilité peut exacerber les « doubles contraintes », où les individus sont confrontés à des pressions contradictoires, ce qui conduit à négliger les risques de sécurité.

Lire plus

Spécifications formelles : au-delà des instructions, définir les comportements logiciels

2025-07-28
Spécifications formelles : au-delà des instructions, définir les comportements logiciels

Cet article explore la distinction entre les spécifications formelles et les programmes traditionnels. Alors que les programmes sont des listes d’instructions, les spécifications formelles sont des ensembles de comportements. À l’aide d’un exemple de compteur, l’auteur illustre comment les spécifications définissent tous les comportements corrects et utilisent la théorie des ensembles, en employant des générateurs (Init et Next) pour décrire des ensembles infinis de comportements. Cela contraste avec le concept de non-déterminisme en programmation ; dans les spécifications formelles, le non-déterminisme fait référence aux multiples façons dont un comportement peut être étendu, tandis que dans les programmes, il fait référence aux chemins de code incertains. L’article souligne l’importance de comprendre les spécifications formelles comme des ensembles de comportements, ce qui est crucial pour le débogage et l’interprétation des erreurs du vérificateur de modèles.

Lire plus

L'échec de l'IA d'Amazon Alexa : Une étude de cas sur la fragilité

2025-06-11
L'échec de l'IA d'Amazon Alexa : Une étude de cas sur la fragilité

Cet article analyse les raisons pour lesquelles Alexa d'Amazon a pris du retard sur ses concurrents dans le domaine des grands modèles de langage, en le présentant comme un échec de « fragilité » dans le cadre de l'ingénierie de la résilience. L'auteur met en évidence trois facteurs contributifs principaux : une allocation inefficace des ressources, entravant l'accès rapide aux ressources informatiques cruciales ; une structure organisationnelle hautement décentralisée favorisant des objectifs d'équipe non alignés et des conflits internes ; et une approche client obsolète, inadaptée à la nature expérimentale et à long terme de la recherche en IA. Ces facteurs combinés ont conduit à l'échec de l'IA d'Amazon, offrant de précieuses leçons pour la structure organisationnelle et la gestion des ressources.

Lire plus
IA

Au-delà de l'analyse de la cause racine : l'ingénierie de la résilience pour les défaillances des systèmes complexes

2025-05-24
Au-delà de l'analyse de la cause racine : l'ingénierie de la résilience pour les défaillances des systèmes complexes

Cet article critique les limites de l'analyse de la cause racine (ACR) dans l'analyse des défaillances des systèmes complexes, en arguant que son modèle de chaîne causale défectueux ne permet pas de traiter efficacement les défaillances causées par l'interaction de multiples facteurs dans les systèmes complexes. L'auteur propose l'ingénierie de la résilience (IR) comme alternative. L'IR se concentre sur les interactions entre les composants du système plutôt que sur des causes uniques. L'IR reconnaît que les systèmes contiennent toujours de nombreuses défaillances latentes ; le succès réside dans la capacité d'adaptation et la tolérance aux pannes du système. En comprenant comment le système s'adapte et gère les défaillances, plutôt que de simplement éliminer les causes racines, des améliorations continues et une plus grande résilience du système sont obtenues.

Lire plus

FizzBee : Modélisation de l’exclusion mutuelle et les pièges de Redlock

2025-03-22
FizzBee : Modélisation de l’exclusion mutuelle et les pièges de Redlock

Cet article détaille l’expérience de l’auteur utilisant FizzBee, un nouveau langage de spécification formelle basé sur Starlark, pour modéliser des algorithmes d’exclusion mutuelle et étudier les problèmes liés à l’algorithme Redlock. En modélisant les sections critiques, les verrous, les baux et les jetons de clôture, l’auteur révèle les limites de la tolérance aux pannes de Redlock, montrant finalement que les jetons de clôture ne résolvent pas complètement les problèmes d’exclusion mutuelle. L’auteur conclut en discutant de la facilité d’utilisation et des lacunes de FizzBee, soulignant l’importance de la spécification formelle dans la conception d’algorithmes. L’exercice pratique a révélé de manière inattendue des défauts subtils dans la compréhension de l’auteur des jetons de clôture, soulignant la valeur des méthodes formelles.

Lire plus
Développement exclusion mutuelle

Ignorer les quasi-accidents : un risque caché pour les entreprises technologiques

2025-02-08
Ignorer les quasi-accidents : un risque caché pour les entreprises technologiques

Les données de la FAA révèlent 30 quasi-accidents à l’aéroport Reagan. Cet article soutient que les entreprises technologiques privilégient souvent la prévention des incidents majeurs, négligeant les nombreux quasi-accidents qui pourraient s’aggraver. Les quasi-accidents, précurseurs d’incidents importants, sont souvent ignorés en raison de leur impact nul. L’auteur préconise de traiter les quasi-accidents avec autant de sérieux que les incidents majeurs, en créant des mécanismes pour les identifier et les analyser de manière proactive. Cela nécessite un changement culturel, en encourageant la déclaration et l’analyse pour améliorer la fiabilité.

Lire plus
Technologie fiabilité

Panne de Canva : un récit de saturation et de résilience

2025-01-12
Panne de Canva : un récit de saturation et de résilience

Canva a récemment subi une panne majeure due à la saturation du système. Le déploiement d'une nouvelle version de la page d'édition n'était pas le coupable ; au lieu de cela, une règle obsolète du CDN Cloudflare a provoqué une latence massive pour les utilisateurs asiatiques téléchargeant des fichiers Javascript. Cela a déclenché plus de 270 000 demandes simultanées, surchargeant ensuite la passerelle API avec 1,5 million de demandes par seconde – trois fois son pic habituel. Un problème de performance connu, mais non corrigé, dans la passerelle API a aggravé le problème. L'OOM killer de Linux a terminé toutes les tâches de la passerelle API, entraînant une panne complète de Canva.com. Les ingénieurs de Canva ont résolu le problème en augmentant manuellement le nombre de tâches, en bloquant temporairement le trafic via les règles de pare-feu Cloudflare et en restaurant progressivement le trafic. Cet incident souligne l'importance de la résilience du système et les inconvénients potentiels des systèmes automatisés sous forte charge.

Lire plus
Technologie résilience système

L'avenir de la conception des tableaux de bord ?

2024-12-23
L'avenir de la conception des tableaux de bord ?

Cet article explore les lacunes de la conception actuelle des tableaux de bord. L'auteur souligne que les tableaux de bord existants sont souvent mal conçus et ne parviennent pas à utiliser efficacement le système visuel humain pour traiter de grandes quantités d'informations. L'article examine les recherches en ingénierie des systèmes cognitifs des années 80 et 90 sur la conception des tableaux de bord, telles que la conception d'interface écologique et l'élan visuel, et note le manque d'attention actuel de l'industrie à l'amélioration de la conception des tableaux de bord. L'auteur appelle à une plus grande attention à la conception des tableaux de bord, afin de mieux intégrer les fonctions de requête et d'améliorer l'efficacité du traitement de l'information.

Lire plus

Panne majeure chez OpenAI : Un nouveau service de télémétrie provoque une interruption importante

2024-12-16
Panne majeure chez OpenAI : Un nouveau service de télémétrie provoque une interruption importante

OpenAI a subi une panne majeure le 11 décembre, due à un nouveau service de télémétrie récemment déployé. Destiné à améliorer la fiabilité, ce service a généré de manière inattendue une charge massive sur les serveurs de l'API Kubernetes, saturant les serveurs et provoquant la panne du plan de contrôle Kubernetes dans la plupart des grands clusters. Cela a entraîné la défaillance de la découverte de services basée sur le DNS. L'incident met en évidence les interactions imprévisibles au sein des systèmes complexes et les défis liés au test des modes de défaillance qui n'apparaissent que sous pleine charge. OpenAI a restauré le service en réduisant la taille des clusters, en bloquant l'accès réseau aux API d'administration Kubernetes et en augmentant l'échelle des serveurs d'API.

Lire plus