SourceHut lutte contre les crawlers IA qui surchargent ses serveurs
Le service d'hébergement Git open source SourceHut lutte contre une vague de crawlers web IA agressifs qui surchargent ses serveurs. L'entreprise a déployé des contre-mesures, incluant un "piège à goudron" appelé Nepenthes, et a bloqué plusieurs fournisseurs de cloud comme Google Cloud et Azure en raison du trafic excessif de bots. Ce n'est pas un nouveau problème ; SourceHut a rencontré des problèmes similaires en 2022 avec le Go Module Mirror de Google, et d'autres projets open source ont également été affectés. Bien que certaines entreprises d'IA se soient engagées à respecter robots.txt, les abus persistent, avec des sites comme iFixit, Vercel et Diaspora signalant des problèmes. La situation est encore plus compliquée par l'usurpation d'identité sophistiquée, avec des bots se faisant passer pour des crawlers légitimes comme le GPTBot d'OpenAI. Cela rend l'analyse des journaux difficile et souligne le défi croissant de la gestion du trafic des crawlers IA. La société de mesure des publicités DoubleVerify a signalé une augmentation de 86 % du trafic invalide au second semestre 2024, dont 16 % attribués aux gratteurs IA.