Redis 벡터 집합: Hacker News 계정 스타일 감지 재현

2025-04-16

코사인 유사도를 사용하여 유사한 계정을 감지하는 것에 대한 3년 전 Hacker News 게시물에서 영감을 받아 Antirez는 Redis 8 RC1의 새로운 벡터 집합 기능을 사용하여 이 실험을 재현했습니다. 그는 10GB의 Hacker News 댓글 데이터를 다운로드하고 정리 및 전처리하여 사용자와 단어 빈도 벡터를 포함하는 JSONL 파일을 생성했습니다. 그런 다음 Burrows-Delta 방법을 사용하여 단어 빈도 벡터를 정규화하고 Redis 벡터 집합에 삽입했습니다. 마지막으로 VSIM 명령어를 사용하여 유사한 작성 스타일을 가진 사용자를 빠르게 찾을 수 있습니다. 프로젝트 코드는 오픈소스로 제공되며 온라인 데모 웹사이트도 사용할 수 있습니다.