SourceHut combate crawlers de IA que sobrecarregam seus servidores

2025-03-18
SourceHut combate crawlers de IA que sobrecarregam seus servidores

O serviço de hospedagem Git de código aberto SourceHut está lutando contra uma onda de crawlers de IA agressivos que estão sobrecarregando seus servidores. A empresa implantou contramedidas, incluindo uma 'armadilha de piche' chamada Nepenthes, e bloqueou vários provedores de nuvem, como Google Cloud e Azure, devido ao excesso de tráfego de bots. Este não é um problema novo; o SourceHut enfrentou problemas semelhantes em 2022 com o Go Module Mirror do Google, e outros projetos de código aberto também foram afetados. Embora algumas empresas de IA tenham se comprometido a respeitar o robots.txt, o abuso persiste, com sites como iFixit, Vercel e Diaspora relatando problemas. A situação é ainda mais complicada pela sofisticada falsificação, com bots se fazendo passar por crawlers legítimos, como o GPTBot do OpenAI. Isso torna a análise de log difícil e destaca o crescente desafio de gerenciar o tráfego de crawlers de IA. A empresa de métricas de anúncios DoubleVerify relatou um aumento de 86% no tráfego inválido no segundo semestre de 2024, com 16% atribuído a raspadores de IA.