Otimização do Rastreador do Mecanismo de Busca: A Cauda Longa de 0,1%

2025-03-27

O rastreador de um mecanismo de busca sempre teve dificuldades para concluir sua tarefa, levando dias para finalizar os domínios restantes. A migração recente para dados de rastreamento reduzida o uso de memória em 80%, aumentando as tarefas de rastreamento. Isso resultou em 99,9% de conclusão em 4 dias, mas os 0,1% restantes levaram uma semana. O problema decorre do tamanho do site seguindo uma distribuição de Pareto, com sites grandes (principalmente acadêmicos com numerosos subdomínios e documentos) e limites do rastreador em tarefas simultâneas por domínio. A ordenação aleatória inicial fez com que sites grandes começassem tarde. A ordenação por contagem de subdomínios levou a um aumento de solicitações para hosts de blogs. A adição de oscilação de atraso de solicitação e o ajuste da ordem de classificação para priorizar sites com mais de 8 subdomínios resolveram parcialmente o problema. No entanto, as limitações inerentes ao modelo de rastreamento em lote exigem otimização adicional.

Desenvolvimento otimização de rastreador