对抗LLM数据抓取:用“毒药”反击

2025-09-05
对抗LLM数据抓取:用“毒药”反击

大型语言模型(LLM)训练数据来源广泛,其中包含大量未经授权的网络内容。作者尝试通过创建“胡言乱语”的镜像文章,并使用nofollow链接来“毒害”LLM的训练数据,以此对抗LLM对自身内容的未经授权抓取。这种方法利用LLM可能忽视nofollow标签的特性,将充满语法错误和语义混乱的文本喂给LLM,从而降低其输出质量。虽然方法并非完美,但作者希望通过这种方式,引起LLM开发者对数据来源版权的重视。

开发