Cazando un Higgs-Bugson: Depurando un Problema de NFS/Kerberos a Nivel de Kernel

2025-07-03
Cazando un Higgs-Bugson: Depurando un Problema de NFS/Kerberos a Nivel de Kernel

Los ingenieros encontraron un error difícil de reproducir que causaba fallos en la copia de archivos (-EACCES) en Gord, un sistema crítico de datos de trading. Deshabilitar Kerberos resolvió el problema, indicando problemas de autenticación. La investigación reveló que el kernel obtiene credenciales Kerberos a través del demonio rpc_gssd, pero los registros no mostraron anomalías. Las pruebas exhaustivas, incluida la creación de un sistema de archivos falso en memoria y el uso de bpftrace para el rastreo del kernel, finalmente identificaron el problema: una alta carga del servidor NFS provocó retransmisiones de solicitudes. El kernel manejó mal las solicitudes/respuestas con XIDs idénticos pero números de secuencia GSS diferentes, lo que provocó discrepancias de suma de comprobación y errores. El ingeniero corrigió el kernel para evitar la retransmisión inmediata debido a discrepancias en el número de secuencia.

Desarrollo error del kernel