Construindo um rastreador web educado e rápido: Lições aprendidas
2025-01-05
O engenheiro da Mozilla, Dennis Schubert, descobriu que 70% da carga dos servidores do Diaspora vinham de bots mal-comportados, com OpenAI e Amazon contribuindo com 40%. Este artigo detalha a experiência do autor ao construir um rastreador web educado e rápido, cobrindo limitação de taxa, respeito ao robots.txt, minimização de recarregamento e enfileiramento eficiente. Usando Python e gevent, o autor atribui uma corrotina por domínio para limitação de taxa e utiliza o Postgres para gerenciamento eficiente de filas e desduplicação. Esse design permite rastreio rápido e eficiente, respeitando os sites de destino.