神秘的Higgs-Bugson:一个关于NFS和Kerberos的内核级Bug追踪

2025-07-03
神秘的Higgs-Bugson:一个关于NFS和Kerberos的内核级Bug追踪

工程师们遭遇了一个难以重现的bug,它导致关键的交易数据系统Gord出现文件复制失败(-EACCES)。禁用Kerberos后,问题消失,指向身份验证问题。调查发现,内核通过rpc_gssd守护进程获取Kerberos凭据,但日志没有异常。经过长时间的测试,包括编写一个内存内伪文件系统和使用bpftrace进行内核跟踪,最终定位到问题:由于NFS服务器负载过高导致的请求重传,内核在处理带有相同XID但不同GSS序列号的请求和响应时,出现校验和不匹配,从而导致错误。工程师修复了内核,避免了因序列号不匹配导致的立即重传。