تحسين زاحف محرك البحث: الذيل الطويل بنسبة 0.1%
لطالما واجه زاحف محرك بحث صعوبة في إنهاء مهمته، حيث يقضي أيامًا على النطاقات الأخيرة. أدت الهجرة الأخيرة إلى بيانات الزحف المقلصة إلى تقليل استخدام الذاكرة بنسبة 80٪، مما زاد من مهام الزحف. وقد أدى ذلك إلى اكتمال 99.9٪ في 4 أيام، لكن الـ 0.1٪ المتبقية استغرقت أسبوعًا. تنبع المشكلة من حجم موقع الويب الذي يتبع توزيعًا باريتو، مع مواقع ويب كبيرة (خاصةً مواقع أكاديمية ذات العديد من النطاقات الفرعية والوثائق) وحدود الزاحف على المهام المتزامنة لكل نطاق. أدى الترتيب العشوائي الأولي إلى بدء المواقع الكبيرة متأخرة. أدى الفرز حسب عدد النطاقات الفرعية إلى زيادة الطلبات على مضيفات المدونات. أدى إضافة اهتزاز إلى تأخير الطلبات وضبط ترتيب الفرز لإعطاء الأولوية للمواقع التي تحتوي على أكثر من 8 نطاقات فرعية إلى حل المشكلة جزئيًا. ومع ذلك، فإن القيود المتأصلة في نموذج الزحف بالدفعات تتطلب تحسينًا إضافيًا.