Nepenthes:一个反爬虫陷阱
2025-01-16
Nepenthes是一个旨在捕获网络爬虫的工具,特别是针对为大型语言模型(LLM)抓取数据的爬虫。它通过生成无限的页面序列,每个页面都包含数十个链接,这些链接会引导爬虫回到陷阱中。页面是随机生成的,但以确定性方式生成,使其看起来像永不改变的静态文件。Nepenthes还会添加延迟来阻止爬虫拖慢服务器速度,并消耗爬虫的时间。此外,还可以添加可选的马尔可夫文本生成功能,为爬虫提供一些数据,希望能加速模型崩溃。此工具会消耗大量CPU资源,尤其是在启用马尔可夫模块的情况下。部署前请谨慎考虑。
开发