大型语言模型数据抓取大战:版权之争与反击之路

大型语言模型(LLM)训练数据获取方式的演变引发了激烈的版权之争。起初,数据抓取缺乏伦理和法律考量。但随着ChatGPT等应用的商业化,版权问题日益突出,作者、出版商纷纷起诉AI公司。OpenAI等公司开始与出版商签订协议获取数据,但数据抓取行为并未停止,甚至变得更加肆无忌惮。面对滥用数据的情况,Cloudflare等公司推出了反抓取工具,并出现了RSL标准,允许网站设定数据访问价格。这标志着网站所有者开始积极反击,未来AI公司可能被迫为数据付费,从而改变数据获取生态。
阅读更多