2개월 만에 30억 개의 신경 임베딩을 사용한 웹 검색 엔진 구축

2025-08-13

저자는 30억 개의 SBERT 임베딩을 활용하여 2개월 만에 웹 검색 엔진을 처음부터 구축한 과정을 설명합니다. 기존 검색 엔진의 단점, 즉 과도한 SEO 스팸과 고품질 콘텐츠 부족을 해결하기 위해 복잡한 쿼리에 대한 검색 관련성과 이해도를 높이는 것을 목표로 했습니다. 이 글에서는 데이터 크롤링, 텍스트 정규화, 청킹, 의미론적 컨텍스트 처리, 임베딩 생성, 저장소(RocksDB 및 HNSW 사용), 검색 등의 프로세스를 자세히 설명합니다. 결과적으로 생성된 검색 엔진은 500밀리초의 쿼리 대기 시간을 자랑하며, 복잡한 자연어 쿼리를 처리하고 고품질 결과를 제공합니다.