L'échec de l'IA d'Amazon Alexa : Une étude de cas sur la fragilité

2025-06-11
L'échec de l'IA d'Amazon Alexa : Une étude de cas sur la fragilité

Cet article analyse les raisons pour lesquelles Alexa d'Amazon a pris du retard sur ses concurrents dans le domaine des grands modèles de langage, en le présentant comme un échec de « fragilité » dans le cadre de l'ingénierie de la résilience. L'auteur met en évidence trois facteurs contributifs principaux : une allocation inefficace des ressources, entravant l'accès rapide aux ressources informatiques cruciales ; une structure organisationnelle hautement décentralisée favorisant des objectifs d'équipe non alignés et des conflits internes ; et une approche client obsolète, inadaptée à la nature expérimentale et à long terme de la recherche en IA. Ces facteurs combinés ont conduit à l'échec de l'IA d'Amazon, offrant de précieuses leçons pour la structure organisationnelle et la gestion des ressources.

Lire plus
IA

Au-delà de l'analyse de la cause racine : l'ingénierie de la résilience pour les défaillances des systèmes complexes

2025-05-24
Au-delà de l'analyse de la cause racine : l'ingénierie de la résilience pour les défaillances des systèmes complexes

Cet article critique les limites de l'analyse de la cause racine (ACR) dans l'analyse des défaillances des systèmes complexes, en arguant que son modèle de chaîne causale défectueux ne permet pas de traiter efficacement les défaillances causées par l'interaction de multiples facteurs dans les systèmes complexes. L'auteur propose l'ingénierie de la résilience (IR) comme alternative. L'IR se concentre sur les interactions entre les composants du système plutôt que sur des causes uniques. L'IR reconnaît que les systèmes contiennent toujours de nombreuses défaillances latentes ; le succès réside dans la capacité d'adaptation et la tolérance aux pannes du système. En comprenant comment le système s'adapte et gère les défaillances, plutôt que de simplement éliminer les causes racines, des améliorations continues et une plus grande résilience du système sont obtenues.

Lire plus

FizzBee : Modélisation de l’exclusion mutuelle et les pièges de Redlock

2025-03-22
FizzBee : Modélisation de l’exclusion mutuelle et les pièges de Redlock

Cet article détaille l’expérience de l’auteur utilisant FizzBee, un nouveau langage de spécification formelle basé sur Starlark, pour modéliser des algorithmes d’exclusion mutuelle et étudier les problèmes liés à l’algorithme Redlock. En modélisant les sections critiques, les verrous, les baux et les jetons de clôture, l’auteur révèle les limites de la tolérance aux pannes de Redlock, montrant finalement que les jetons de clôture ne résolvent pas complètement les problèmes d’exclusion mutuelle. L’auteur conclut en discutant de la facilité d’utilisation et des lacunes de FizzBee, soulignant l’importance de la spécification formelle dans la conception d’algorithmes. L’exercice pratique a révélé de manière inattendue des défauts subtils dans la compréhension de l’auteur des jetons de clôture, soulignant la valeur des méthodes formelles.

Lire plus
Développement exclusion mutuelle

Ignorer les quasi-accidents : un risque caché pour les entreprises technologiques

2025-02-08
Ignorer les quasi-accidents : un risque caché pour les entreprises technologiques

Les données de la FAA révèlent 30 quasi-accidents à l’aéroport Reagan. Cet article soutient que les entreprises technologiques privilégient souvent la prévention des incidents majeurs, négligeant les nombreux quasi-accidents qui pourraient s’aggraver. Les quasi-accidents, précurseurs d’incidents importants, sont souvent ignorés en raison de leur impact nul. L’auteur préconise de traiter les quasi-accidents avec autant de sérieux que les incidents majeurs, en créant des mécanismes pour les identifier et les analyser de manière proactive. Cela nécessite un changement culturel, en encourageant la déclaration et l’analyse pour améliorer la fiabilité.

Lire plus
Technologie fiabilité

Panne de Canva : un récit de saturation et de résilience

2025-01-12
Panne de Canva : un récit de saturation et de résilience

Canva a récemment subi une panne majeure due à la saturation du système. Le déploiement d'une nouvelle version de la page d'édition n'était pas le coupable ; au lieu de cela, une règle obsolète du CDN Cloudflare a provoqué une latence massive pour les utilisateurs asiatiques téléchargeant des fichiers Javascript. Cela a déclenché plus de 270 000 demandes simultanées, surchargeant ensuite la passerelle API avec 1,5 million de demandes par seconde – trois fois son pic habituel. Un problème de performance connu, mais non corrigé, dans la passerelle API a aggravé le problème. L'OOM killer de Linux a terminé toutes les tâches de la passerelle API, entraînant une panne complète de Canva.com. Les ingénieurs de Canva ont résolu le problème en augmentant manuellement le nombre de tâches, en bloquant temporairement le trafic via les règles de pare-feu Cloudflare et en restaurant progressivement le trafic. Cet incident souligne l'importance de la résilience du système et les inconvénients potentiels des systèmes automatisés sous forte charge.

Lire plus
Technologie résilience système

L'avenir de la conception des tableaux de bord ?

2024-12-23
L'avenir de la conception des tableaux de bord ?

Cet article explore les lacunes de la conception actuelle des tableaux de bord. L'auteur souligne que les tableaux de bord existants sont souvent mal conçus et ne parviennent pas à utiliser efficacement le système visuel humain pour traiter de grandes quantités d'informations. L'article examine les recherches en ingénierie des systèmes cognitifs des années 80 et 90 sur la conception des tableaux de bord, telles que la conception d'interface écologique et l'élan visuel, et note le manque d'attention actuel de l'industrie à l'amélioration de la conception des tableaux de bord. L'auteur appelle à une plus grande attention à la conception des tableaux de bord, afin de mieux intégrer les fonctions de requête et d'améliorer l'efficacité du traitement de l'information.

Lire plus

Panne majeure chez OpenAI : Un nouveau service de télémétrie provoque une interruption importante

2024-12-16
Panne majeure chez OpenAI : Un nouveau service de télémétrie provoque une interruption importante

OpenAI a subi une panne majeure le 11 décembre, due à un nouveau service de télémétrie récemment déployé. Destiné à améliorer la fiabilité, ce service a généré de manière inattendue une charge massive sur les serveurs de l'API Kubernetes, saturant les serveurs et provoquant la panne du plan de contrôle Kubernetes dans la plupart des grands clusters. Cela a entraîné la défaillance de la découverte de services basée sur le DNS. L'incident met en évidence les interactions imprévisibles au sein des systèmes complexes et les défis liés au test des modes de défaillance qui n'apparaissent que sous pleine charge. OpenAI a restauré le service en réduisant la taille des clusters, en bloquant l'accès réseau aux API d'administration Kubernetes et en augmentant l'échelle des serveurs d'API.

Lire plus