AI 掠夺:大型语言模型训练数据之战
2025-03-25
一场互联网战争正在进行中。巨额资金支持的 AI 公司正在大肆抓取图书馆、档案馆、非营利组织和学术出版社的网站数据,用于训练大型语言模型(LLM)。这些机构为了维护互联网上高质量信息的普遍获取,正竭力抵御这波攻击。但 AI 公司对高质量数据的需求日益增长,它们忽视了网站的robots协议和nofollow警告,导致服务器不堪重负,许多网站面临瘫痪风险。这不仅浪费了开发人员的时间和资源,也威胁到文化和科学信息的保存。这场数据争夺战最终可能导致高质量信息被锁在付费墙后,只有少数人才能访问。
阅读更多
科技