벡터 ID 손실 없는 압축을 통한 근사 최근접 이웃 검색 개선
2025-01-23
연구자들은 근사 최근접 이웃 검색에서 인덱스 저장 비용이 높은 문제를 해결하기 위해 벡터 ID 손실 없는 압축 기법을 제시했습니다. 많은 인덱스 구조에서 벡터 ID 순서가 중요하지 않다는 점과 비대칭 수치 시스템 또는 웨이블릿 트리를 활용하여 정확도나 검색 시간에 영향을 주지 않고 벡터 ID를 최대 7배까지 압축할 수 있습니다. 이를 통해 10억 규모의 데이터셋에서 인덱스 크기를 30% 줄일 수 있습니다. 또한, 이 방법은 원래 양자화 알고리즘의 비최적성을 활용하여 양자화된 벡터 코드도 손실 없이 압축할 수 있습니다.