SourceHut combate a los rastreadores de IA que saturan sus servidores
El servicio de alojamiento Git de código abierto SourceHut está luchando contra una ola de rastreadores web de IA agresivos que están saturando sus servidores. La empresa ha implementado contramedidas, incluyendo una 'trampa de brea' llamada Nepenthes, y ha bloqueado varios proveedores de nube como Google Cloud y Azure debido al tráfico excesivo de bots. Este no es un problema nuevo; SourceHut enfrentó problemas similares en 2022 con el Go Module Mirror de Google, y otros proyectos de código abierto también se han visto afectados. Si bien algunas empresas de IA se han comprometido a respetar robots.txt, el abuso persiste, con sitios como iFixit, Vercel y Diaspora reportando problemas. La situación es aún más complicada por la sofisticada suplantación de identidad, con bots haciéndose pasar por rastreadores legítimos como el GPTBot de OpenAI. Esto dificulta el análisis de registros y destaca el creciente desafío de gestionar el tráfico de rastreadores de IA. La firma de métricas publicitarias DoubleVerify informó un aumento del 86% en el tráfico inválido en la segunda mitad de 2024, con un 16% atribuido a raspadores de IA.