Chasse au Higgs-Bugson : Débogage d’un problème NFS/Kerberos au niveau du noyau

2025-07-03
Chasse au Higgs-Bugson : Débogage d’un problème NFS/Kerberos au niveau du noyau

Des ingénieurs ont rencontré un bug difficile à reproduire qui provoquait des échecs de copie de fichiers (-EACCES) dans Gord, un système critique de données de trading. La désactivation de Kerberos a résolu le problème, indiquant des problèmes d’authentification. L’enquête a révélé que le noyau obtient les informations d’identification Kerberos via le démon rpc_gssd, mais les journaux n’ont montré aucune anomalie. Des tests approfondis, notamment la création d’un système de fichiers factice en mémoire et l’utilisation de bpftrace pour le suivi du noyau, ont finalement permis d’identifier le problème : une charge élevée du serveur NFS a entraîné des retransmissions de requêtes. Le noyau a mal géré les requêtes/réponses avec des XID identiques mais des numéros de séquence GSS différents, ce qui a entraîné des incohérences de somme de contrôle et des erreurs. L’ingénieur a corrigé le noyau pour éviter la retransmission immédiate en raison d’incohérences de numéro de séquence.

Développement bug du noyau