검색 엔진 크롤러 최적화: 0.1%의 긴 꼬리

2025-03-27

검색 엔진 크롤러는 작업 완료에 항상 어려움을 겪었으며, 마지막 도메인에 며칠씩 소요되었습니다. 최근 축소된 크롤링 데이터로의 마이그레이션을 통해 메모리 사용량이 80% 감소하고 크롤링 작업 수가 증가했습니다. 이로 인해 4일 만에 99.9%가 완료되었지만, 나머지 0.1%에는 1주일이 걸렸습니다. 이 문제는 웹사이트 크기가 파레토 분포를 따르고, 대규모 웹사이트(특히 수많은 하위 도메인과 문서를 가진 학술 웹사이트)와 도메인당 동시 작업에 대한 크롤러 제한 때문입니다. 초기 랜덤 순서 지정으로 인해 대규모 웹사이트가 늦게 시작되었습니다. 하위 도메인 수에 따른 정렬은 블로그 호스트에 대한 요청 급증으로 이어졌습니다. 요청 간 지연에 지터를 추가하고 8개 이상의 하위 도메인을 가진 웹사이트를 우선시하도록 정렬 순서를 조정함으로써 문제가 부분적으로 해결되었습니다. 그러나 배치 지향 크롤링 모델의 고유한 제한으로 인해 추가 최적화가 필요합니다.