Caçando um Higgs-Bugson: Depurando um Problema de NFS/Kerberos em Nível de Kernel

2025-07-03
Caçando um Higgs-Bugson: Depurando um Problema de NFS/Kerberos em Nível de Kernel

Engenheiros encontraram um bug difícil de reproduzir que causava falhas na cópia de arquivos (-EACCES) em Gord, um sistema crítico de dados de negociação. Desabilitar o Kerberos resolveu o problema, indicando problemas de autenticação. A investigação revelou que o kernel obtém credenciais Kerberos por meio do daemon rpc_gssd, mas os logs não mostraram anomalias. Testes extensivos, incluindo a criação de um sistema de arquivos falso na memória e o uso do bpftrace para rastreamento do kernel, finalmente identificaram o problema: alta carga do servidor NFS causou retransmissões de solicitações. O kernel lidou mal com solicitações/respostas com XIDs idênticos, mas números de sequência GSS diferentes, levando a incompatibilidades de checksum e erros. O engenheiro corrigiu o kernel para evitar a retransmissão imediata devido a incompatibilidades de número de sequência.

Desenvolvimento bug do kernel