Construire un robot d'exploration web poli et rapide : leçons apprises
Dennis Schubert, ingénieur chez Mozilla et contributeur notable à Diaspora, un réseau social distribué et open source, a récemment observé que 70 % de la charge des serveurs de Diaspora provenaient de robots malveillants alimentant les LLM de quelques grandes entreprises. Les pires contrevenants, représentant 40 % du trafic total combiné, étaient OpenAI et Amazon. Cet article détaille l'expérience de l'auteur dans la construction d'un robot d'exploration web poli et rapide, couvrant la limitation de débit, le respect de robots.txt, la minimisation des re-téléchargements et l'enfilement efficace. Utilisant Python et gevent, l'auteur attribue une coroutine par domaine pour la limitation de débit et utilise Postgres pour une gestion efficace des files d'attente et la déduplication. Cette conception permet une exploration rapide et efficace tout en respectant les sites web cibles.