OpenAI 和 Anthropic 忽视阻止机器人抓取网络内容的规则
2024-06-22
据报道,全球最大的两家 AI 初创公司 OpenAI 和 Anthropic 被发现无视媒体出版商停止抓取其网络内容以获取免费模型训练数据的请求。这两家公司被发现无视或绕过了一项名为 robots.txt 的既定网络规则,该规则旨在阻止自动抓取网站内容。 robots.txt 是一段自 20 世纪 90 年代后期以来一直被使用的代码,网站可以通过它告诉机器人爬虫,它们不希望自己的数据被抓取和收集。
未分类
数据抓取