SourceHut bekämpft KI-Crawler, die seine Server überlasten
Der Open-Source-Git-Hosting-Dienst SourceHut kämpft gegen eine Welle aggressiver KI-Webcrawler, die seine Server überlasten. Das Unternehmen hat Gegenmaßnahmen ergriffen, darunter eine "Teergrube" namens Nepenthes, und mehrere Cloud-Anbieter wie Google Cloud und Azure aufgrund von übermäßigem Bot-Traffic blockiert. Dies ist kein neues Problem; SourceHut hatte 2022 ähnliche Probleme mit Googles Go Module Mirror, und andere Open-Source-Projekte waren ebenfalls betroffen. Obwohl einige KI-Unternehmen versprochen haben, robots.txt zu respektieren, bestehen Missbrauchsfälle weiterhin, wobei Websites wie iFixit, Vercel und Diaspora Probleme melden. Die Situation wird durch ausgeklügeltes Spoofing weiter kompliziert, wobei Bots sich als legitime Crawler wie OpenAIs GPTBot ausgeben. Dies erschwert die Log-Analyse und unterstreicht die wachsende Herausforderung der Verwaltung des KI-Crawler-Traffics. Das Werbemetrikunternehmen DoubleVerify meldete einen Anstieg des ungültigen Traffics um 86 % in der zweiten Hälfte 2024, wobei 16 % auf KI-Scraper zurückzuführen sind.