ネペンテス:ウェブクローラー用タールピット

2025-01-16

ネペンテスは、ウェブクローラー、特にLLMのためにデータをスクレイピングするクローラーをトラップするために設計されたツールです。無限のページシーケンスを生成し、各ページには数十のリンクがあり、これらはタールピットに戻ります。ページはランダムに生成されますが、決定論的な方法で生成されるため、変化しない静的ファイルのように見えます。意図的な遅延により、クローラーがサーバーを遅くしたり、時間を無駄にしたりすることが防止されます。オプションでマルコフバブルを追加でき、クローラーにデータを提供して、モデルの崩壊を加速させることが期待できます。警告:これは、特にマルコフモジュールが有効になっている場合、大量のCPUを消費します。注意して使用してください。