开源Git托管服务SourceHut遭AI爬虫攻击
2025-03-18
开源Git代码托管平台SourceHut遭遇了AI公司爬虫的猛烈攻击,这些爬虫疯狂抓取数据用于训练大型语言模型,导致SourceHut服务严重受损。SourceHut已部署了Nepenthes系统来拦截这些爬虫,并封禁了谷歌云和微软Azure等多个云提供商的IP地址。这并非首次出现此类事件,此前Google的Go Module Mirror和GMP等开源项目也遭受过类似的攻击。虽然部分AI公司承诺遵守robots.txt协议,但滥用行为依然存在,许多网站和开发者都受到了影响,包括iFixit、Vercel和Diaspora等。爬虫的伪装也日益精巧,甚至出现冒充OpenAI GPTBot的行为,给日志分析带来了极大挑战。广告度量公司DoubleVerify的数据显示,2024年下半年,无效流量增长了86%,其中16%来自AI爬虫。这一现象凸显了AI发展带来的新挑战,需要行业共同努力来解决。
开发