네펜테스: 웹 크롤러 함정
2025-01-16
네펜테스는 웹 크롤러, 특히 LLM을 위해 데이터를 스크래핑하는 크롤러를 가두도록 설계된 도구입니다. 무한한 페이지 시퀀스를 생성하며, 각 페이지에는 함정으로 다시 돌아가는 수십 개의 링크가 있습니다. 페이지는 무작위로 생성되지만, 결정론적 방식으로 생성되므로 변경되지 않는 정적 파일처럼 보입니다. 의도적인 지연으로 크롤러가 서버를 느리게 하거나 시간을 낭비하는 것을 방지합니다. 선택적으로 마르코프 헛소리를 추가하여 크롤러에 데이터를 제공하고 모델 붕괴를 가속화할 수 있습니다. 경고: 특히 마르코프 모듈이 활성화된 경우 상당한 CPU를 소모합니다. 주의해서 사용하십시오.
개발
반 크롤러