Optimización del rastreador del motor de búsqueda: La larga cola del 0,1%

2025-03-27

El rastreador de un motor de búsqueda siempre tuvo problemas para completar su tarea, pasando días en los dominios finales. La migración reciente a datos de rastreo reducida el uso de memoria en un 80%, aumentando las tareas de rastreo. Esto resultó en un 99,9% de finalización en 4 días, pero el 0,1% restante tardó una semana. El problema se debe al tamaño del sitio web que sigue una distribución de Pareto, con sitios web grandes (especialmente académicos con numerosos subdominios y documentos) y límites del rastreador en tareas simultáneas por dominio. El orden aleatorio inicial hizo que los sitios grandes comenzaran tarde. La ordenación por conteo de subdominios provocó un aumento de solicitudes a hosts de blogs. La adición de variabilidad al retraso de las solicitudes y el ajuste del orden de clasificación para priorizar los sitios con más de 8 subdominios resolvieron parcialmente el problema. Sin embargo, las limitaciones inherentes al modelo de rastreo por lotes requieren optimización adicional.