Nepenthes: Eine Falle für Webcrawler

2025-01-16

Nepenthes ist ein Werkzeug, das entwickelt wurde, um Webcrawler zu fangen, insbesondere solche, die Daten für LLMs scrapen. Es generiert eine endlose Folge von Seiten, jede mit Dutzenden von Links, die zurück in die Falle führen. Die Seiten werden zufällig, aber deterministisch generiert, sodass sie wie unveränderliche statische Dateien aussehen. Absichtliche Verzögerungen verhindern, dass Crawler Ihren Server überlasten und ihre Zeit verschwenden. Optional kann ein Markov-Kauderwelsch hinzugefügt werden, das den Crawlern Daten liefert, um hoffentlich den Modellkollaps zu beschleunigen. Warnung: Dies verbraucht erhebliche CPU-Leistung, insbesondere mit aktiviertem Markov-Modul. Vorsicht bei der Verwendung.

Entwicklung Anti-Crawler