Cazando un Higgs-Bugson: Depurando un Problema de NFS/Kerberos a Nivel de Kernel
Los ingenieros encontraron un error difícil de reproducir que causaba fallos en la copia de archivos (-EACCES) en Gord, un sistema crítico de datos de trading. Deshabilitar Kerberos resolvió el problema, indicando problemas de autenticación. La investigación reveló que el kernel obtiene credenciales Kerberos a través del demonio rpc_gssd, pero los registros no mostraron anomalías. Las pruebas exhaustivas, incluida la creación de un sistema de archivos falso en memoria y el uso de bpftrace para el rastreo del kernel, finalmente identificaron el problema: una alta carga del servidor NFS provocó retransmisiones de solicitudes. El kernel manejó mal las solicitudes/respuestas con XIDs idénticos pero números de secuencia GSS diferentes, lo que provocó discrepancias de suma de comprobación y errores. El ingeniero corrigió el kernel para evitar la retransmisión inmediata debido a discrepancias en el número de secuencia.