Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

AI 掠夺：大型语言模型训练数据之战

2025-03-25

一场互联网战争正在进行中。巨额资金支持的 AI 公司正在大肆抓取图书馆、档案馆、非营利组织和学术出版社的网站数据，用于训练大型语言模型（LLM）。这些机构为了维护互联网上高质量信息的普遍获取，正竭力抵御这波攻击。但 AI 公司对高质量数据的需求日益增长，它们忽视了网站的robots协议和nofollow警告，导致服务器不堪重负，许多网站面临瘫痪风险。这不仅浪费了开发人员的时间和资源，也威胁到文化和科学信息的保存。这场数据争夺战最终可能导致高质量信息被锁在付费墙后，只有少数人才能访问。

(go-to-hellman.blogspot.com)

科技