维基媒体面临AI训练数据爬取的巨大压力

2025-05-02
维基媒体面临AI训练数据爬取的巨大压力

自2024年初以来,对维基媒体志愿者社区创作内容(特别是维基共享资源上1.44亿张图片、视频和其他文件)的需求激增。这主要源于AI模型训练对数据的巨大需求,大量爬虫程序抓取维基媒体内容,导致服务器负载暴增,带宽使用量增长50%。这不仅影响了网站的运行速度,也给维基媒体基金会带来了巨大的成本压力。目前,高达65%的昂贵流量来自爬虫,这与仅占总访问量35%的爬虫访问量比例严重不符。维基媒体呼吁建立负责任的资源使用模式,以确保其内容的持续免费可用,并倡导开发人员和内容复用者使用支持的访问渠道。

科技