AI 爬虫需要更加尊重网站
2024-07-25
文章指出 AI 爬虫对 Read the Docs 网站造成了困扰。这些爬虫疯狂抓取内容,导致网站带宽费用激增。作者列举了多个 AI 爬虫滥用案例,例如反复下载相同的大文件,消耗了大量带宽资源。作者呼吁 AI 公司约束爬虫行为,尊重网站资源,并建议他们参考 Scrapy 等工具,实现对网站友好的爬取策略。
文章指出 AI 爬虫对 Read the Docs 网站造成了困扰。这些爬虫疯狂抓取内容,导致网站带宽费用激增。作者列举了多个 AI 爬虫滥用案例,例如反复下载相同的大文件,消耗了大量带宽资源。作者呼吁 AI 公司约束爬虫行为,尊重网站资源,并建议他们参考 Scrapy 等工具,实现对网站友好的爬取策略。