히그스 버그슨 사냥: NFS/Kerberos 커널 레벨 문제 디버깅

2025-07-03
히그스 버그슨 사냥: NFS/Kerberos 커널 레벨 문제 디버깅

엔지니어들은 중요한 거래 데이터 시스템인 Gord에서 파일 복사 실패(-EACCES)를 일으키는 재현이 어려운 버그를 발견했습니다. Kerberos를 비활성화하자 문제가 해결되어 인증 문제를 시사했습니다. 조사 결과 커널은 rpc_gssd 데몬을 통해 Kerberos 자격 증명을 얻지만 로그에는 이상이 없었습니다. 장시간 테스트, 메모리 내 가짜 파일 시스템 생성, bpftrace를 사용한 커널 추적 등을 통해 최종적으로 문제점을 파악했습니다. NFS 서버 부하가 높아 요청 재전송이 발생하고 커널이 동일한 XID이지만 다른 GSS 시퀀스 번호를 가진 요청/응답을 잘못 처리하여 체크섬 불일치 및 오류가 발생했습니다. 엔지니어는 시퀀스 번호 불일치로 인한 즉각적인 재전송을 방지하기 위해 커널을 수정했습니다.

개발 커널 버그