مطاردة خلل هيجز-بوجسون: تصحيح أخطاء مشكلة مستوى النواة NFS/Kerberos

2025-07-03
مطاردة خلل هيجز-بوجسون: تصحيح أخطاء مشكلة مستوى النواة NFS/Kerberos

واجه المهندسون خطأ يصعب إعادة إنتاجه، مما تسبب في فشل نسخ الملفات (-EACCES) في Gord، وهو نظام بيانات تداول بالغ الأهمية. لقد تم حل المشكلة عن طريق تعطيل Kerberos، مما يشير إلى وجود مشاكل في المصادقة. كشفت التحقيقات أن النواة تحصل على بيانات اعتماد Kerberos عبر ديمون rpc_gssd، لكن السجلات لم تظهر أي شذوذ. أدت الاختبارات المكثفة، بما في ذلك إنشاء نظام ملفات وهمي في الذاكرة واستخدام bpftrace لتتبع النواة، إلى تحديد المشكلة أخيرًا: تسببت الحمولة العالية على خادم NFS في إعادة إرسال الطلبات. تعاملت النواة بشكل خاطئ مع الطلبات/الاستجابات التي تحتوي على XIDs متطابقة ولكن بأرقام تسلسل GSS مختلفة، مما أدى إلى عدم تطابق المجموعات الاختبارية والأخطاء. قام المهندس بإصلاح النواة لمنع إعادة الإرسال الفوري بسبب عدم تطابق أرقام التسلسل.

التطوير خطأ في النواة