Desastre de OceanGate: Cuando la responsabilidad falla

2025-08-24
Desastre de OceanGate: Cuando la responsabilidad falla

El informe de investigación de la implosión del submarino OceanGate menciona repetidamente la 'responsabilidad', pero este artículo argumenta que no es una panacea. Clasifica los problemas en dos tipos: desafíos de coordinación y modelos de riesgo mal calibrados. En los desafíos de coordinación, la responsabilidad puede llevar a culpar a individuos mientras se ignoran problemas sistémicos. Con modelos de riesgo mal calibrados, incluso con el CEO pilotando el sumergible y teniendo 'la piel en el juego', una evaluación de riesgo incorrecta condujo al desastre. El artículo argumenta que las soluciones requieren colaboración entre equipos y supervisión de seguridad independiente, no solo responsabilidad. La responsabilidad puede exacerbar 'doble vinculación', donde los individuos enfrentan presiones conflictivas, lo que lleva a que se pasen por alto los riesgos de seguridad.

Leer más
Tecnología seguridad sistémica

Especificaciones Formales: Más Allá de las Instrucciones, Definiendo Comportamientos de Software

2025-07-28
Especificaciones Formales: Más Allá de las Instrucciones, Definiendo Comportamientos de Software

Esta publicación profundiza en la distinción entre especificaciones formales y programas tradicionales. Mientras que los programas son listas de instrucciones, las especificaciones formales son conjuntos de comportamientos. Usando un contador como ejemplo, el autor ilustra cómo las especificaciones definen todos los comportamientos correctos y utilizan la teoría de conjuntos, empleando generadores (Init y Next) para describir conjuntos infinitos de comportamientos. Esto contrasta con el concepto de no determinismo en la programación; en especificaciones formales, el no determinismo se refiere a las múltiples maneras en que un comportamiento puede extenderse, mientras que en los programas, se refiere a caminos de código inciertos. El artículo enfatiza la importancia de comprender las especificaciones formales como conjuntos de comportamientos, crucial para la depuración e interpretación de errores del verificador de modelos.

Leer más

El Fallo de la IA de Amazon Alexa: Un Caso de Fragilidad

2025-06-11
El Fallo de la IA de Amazon Alexa: Un Caso de Fragilidad

Este artículo analiza por qué la Alexa de Amazon se quedó atrás de sus competidores en el espacio de los modelos de lenguaje grandes, encuadrándolo como un fallo de 'fragilidad' dentro de la ingeniería de resiliencia. El autor destaca tres factores contribuyentes principales: asignación ineficiente de recursos, dificultando el acceso oportuno a recursos informáticos cruciales; una estructura organizacional altamente descentralizada que fomenta objetivos de equipo desalineados y conflicto interno; y un enfoque centrado en el cliente desactualizado, inadecuado para la naturaleza experimental y a largo plazo de la investigación de IA. Estos factores combinados llevaron al revés de la IA de Amazon, ofreciendo valiosas lecciones para la estructura organizacional y la gestión de recursos.

Leer más
IA

Más allá del Análisis de la Causa Raíz: Ingeniería de Resiliencia para Fallos en Sistemas Complejos

2025-05-24
Más allá del Análisis de la Causa Raíz: Ingeniería de Resiliencia para Fallos en Sistemas Complejos

Este artículo critica las limitaciones del Análisis de la Causa Raíz (ACR) en el análisis de fallos en sistemas complejos, argumentando que su modelo de cadena causal defectuoso no aborda eficazmente los fallos causados por la interacción de múltiples factores en sistemas complejos. El autor propone la Ingeniería de Resiliencia (IR) como alternativa. La IR se centra en las interacciones entre los componentes del sistema en lugar de causas únicas. La IR reconoce que los sistemas siempre contienen numerosas fallas latentes; el éxito reside en la capacidad adaptativa y la tolerancia a fallos del sistema. Al comprender cómo el sistema se adapta y maneja los fallos, en lugar de simplemente eliminar las causas raíz, se logran mejoras continuas y una mayor resiliencia del sistema.

Leer más

FizzBee: Modelando la Exclusión Mutua y las Trampas de Redlock

2025-03-22
FizzBee: Modelando la Exclusión Mutua y las Trampas de Redlock

Este artículo detalla la experiencia del autor usando FizzBee, un nuevo lenguaje de especificación formal basado en Starlark, para modelar algoritmos de exclusión mutua e investigar problemas con el algoritmo Redlock. Al modelar secciones críticas, bloqueos, arrendamientos y tokens de cerca, el autor revela limitaciones en la tolerancia a fallos de Redlock, mostrando finalmente que los tokens de cerca no resuelven completamente los problemas de exclusión mutua. El autor concluye discutiendo la facilidad de uso y las deficiencias de FizzBee, destacando la importancia de la especificación formal en el diseño de algoritmos. El ejercicio práctico reveló inesperadamente fallas sutiles en la comprensión del autor sobre los tokens de cerca, subrayando el valor de los métodos formales.

Leer más
Desarrollo exclusión mutua

Ignorar casi accidentes: un riesgo oculto para las empresas tecnológicas

2025-02-08
Ignorar casi accidentes: un riesgo oculto para las empresas tecnológicas

Los datos de la FAA revelan 30 casi accidentes en el aeropuerto Reagan. Este artículo argumenta que las empresas tecnológicas a menudo priorizan la prevención de incidentes graves, pasando por alto los numerosos casi accidentes que podrían agravarse. Los casi accidentes, precursores de incidentes significativos, a menudo se ignoran debido a su impacto cero. El autor aboga por tratar los casi accidentes con la misma seriedad que los incidentes graves, creando mecanismos para identificarlos y analizarlos proactivamente. Esto requiere un cambio cultural, fomentando la notificación y el análisis para mejorar la fiabilidad.

Leer más
Tecnología fiabilidad

Caída de Canva: Una historia de saturación y resiliencia

2025-01-12
Caída de Canva: Una historia de saturación y resiliencia

Canva sufrió recientemente una gran caída debido a la saturación del sistema. La implementación de una nueva versión de la página del editor no fue la culpable; en cambio, una regla obsoleta de Cloudflare CDN causó una latencia masiva para los usuarios asiáticos que cargaban archivos Javascript. Esto provocó más de 270.000 solicitudes simultáneas, sobrecargando posteriormente la puerta de enlace de la API con 1,5 millones de solicitudes por segundo, tres veces su pico típico. Un error de rendimiento conocido, pero no corregido, en la puerta de enlace de la API agravó el problema. El asesino de memoria OOM de Linux terminó todas las tareas de la puerta de enlace de la API, lo que provocó la falla completa de Canva.com. Los ingenieros de Canva resolvieron el problema aumentando manualmente el recuento de tareas, bloqueando temporalmente el tráfico mediante reglas de firewall de Cloudflare y restaurando gradualmente el tráfico. Este incidente destaca la importancia de la resiliencia del sistema y las posibles desventajas de los sistemas automatizados bajo carga pesada.

Leer más

¿Hacia dónde se dirige el diseño de los tableros?

2024-12-23
¿Hacia dónde se dirige el diseño de los tableros?

Este artículo explora las deficiencias del diseño actual de los tableros. El autor señala que los tableros existentes a menudo están mal diseñados y no utilizan eficazmente el sistema visual humano para procesar grandes cantidades de información. El artículo revisa investigaciones de ingeniería de sistemas cognitivos de los años 80 y 90 sobre el diseño de tableros, como el diseño de interfaz ecológica y el impulso visual, y observa la falta de enfoque actual de la industria en mejorar el diseño de tableros. El autor hace un llamamiento para que se preste más atención al diseño de los tableros, para integrar mejor las funciones de consulta y mejorar la eficiencia del procesamiento de la información.

Leer más

Caída masiva de OpenAI: Un nuevo servicio de telemetría causa una interrupción importante

2024-12-16
Caída masiva de OpenAI: Un nuevo servicio de telemetría causa una interrupción importante

OpenAI experimentó una interrupción importante del servicio el 11 de diciembre, debido a un nuevo servicio de telemetría recientemente implementado. Con la intención de mejorar la confiabilidad, este servicio generó inesperadamente una carga masiva en los servidores de la API de Kubernetes, saturándolos y causando que el plano de control de Kubernetes fallara en la mayoría de los clústeres grandes. Esto llevó a la ruptura del descubrimiento de servicios basado en DNS. El incidente destaca las interacciones impredecibles dentro de los sistemas complejos y los desafíos de probar los modos de falla que solo aparecen bajo carga total. OpenAI restauró el servicio reduciendo el tamaño de los clústeres, bloqueando el acceso a la red a las API administrativas de Kubernetes y escalando los servidores de la API.

Leer más