Construyendo un rastreador web educado y rápido: Lecciones aprendidas
2025-01-05
El ingeniero de Mozilla, Dennis Schubert, descubrió que el 70% de la carga de los servidores de Diaspora provenía de bots mal comportados, con OpenAI y Amazon contribuyendo con el 40%. Este artículo detalla la experiencia del autor al construir un rastreador web educado y rápido, cubriendo la limitación de velocidad, el respeto a robots.txt, la minimización de la recarga y el almacenamiento en cola eficiente. Usando Python y gevent, el autor asigna una corrutina por dominio para la limitación de velocidad y utiliza Postgres para la gestión eficiente de colas y la desduplicación. Este diseño permite un rastreo rápido y eficiente, respetando los sitios web de destino.
Leer más