SemHash: 초고속 의미론적 텍스트 중복 제거

2025-01-12
SemHash: 초고속 의미론적 텍스트 중복 제거

SemHash는 의미론적 유사성을 사용하여 데이터셋의 중복을 제거하는 경량적이고 유연한 도구입니다. Model2Vec의 빠른 임베딩 생성과 Vicinity의 효율적인 ANN 기반 유사성 검색을 결합합니다. SemHash는 단일 데이터셋과 다중 데이터셋 중복 제거를 모두 지원하며, 텍스트 목록과 같은 간단한 데이터셋과 다중 열 QA 데이터셋과 같은 복잡한 데이터셋을 처리합니다. 중복 제거 결과를 검사하는 기능도 포함되어 있어 데이터 정리 프로세스를 쉽게 이해하고 개선할 수 있습니다. 벤치마크 테스트 결과 SemHash는 매우 빠르며 수백만 개의 레코드를 가진 대규모 데이터셋에도 확장 가능함을 보여줍니다.