AI 训练数据饥渴:学术网站被机器人流量淹没
2025-06-02
近期,大量机器人流量涌入学术网站,导致DiscoverLife等网站不堪重负,甚至瘫痪。这些机器人主要来自匿名IP地址,被怀疑用于训练生成式AI模型。 这一现象并非个例,BMJ和Highwire Press等机构也遭受类似困扰。COAR调查显示,超过90%的成员网站遭遇AI机器人抓取内容,其中三分之二出现服务中断。虽然开放获取资源欢迎合理使用,但如此激进的抓取行为已造成严重问题。DeepSeek的出现降低了LLM训练门槛,加剧了这一问题。学术界呼吁解决这一问题,否则小型机构恐将面临生存危机。
科技
学术网站