Optimisation du crawler du moteur de recherche : la longue traîne des 0,1 %

2025-03-27

Le crawler d'un moteur de recherche a toujours eu du mal à terminer sa tâche, passant des jours sur les derniers domaines. La migration récente vers des données de crawl réduites a réduit l'utilisation de la mémoire de 80 %, augmentant le nombre de tâches de crawl. Cela a entraîné une complétion de 99,9 % en 4 jours, mais les 0,1 % restants ont pris une semaine. Le problème provient de la taille des sites Web qui suit une distribution de Pareto, avec des sites Web volumineux (en particulier des sites académiques avec de nombreux sous-domaines et documents) et des limites du crawler sur les tâches simultanées par domaine. L'ordre aléatoire initial a fait que les grands sites démarraient tard. Le tri par nombre de sous-domaines a entraîné une augmentation des demandes vers les hébergeurs de blogs. L'ajout d'une gigue au délai entre les demandes et l'ajustement de l'ordre de tri pour donner la priorité aux sites ayant plus de 8 sous-domaines ont résolu partiellement le problème. Cependant, les limitations inhérentes au modèle de crawl par lots nécessitent une optimisation supplémentaire.

Développement optimisation du crawler