HNSW는 벡터 데이터베이스의 만능 해결책이 아니다: IVF의 부상

2024-12-23

HNSW 알고리즘은 벡터 유사도 검색에서 속도와 정확도로 인기가 있지만, 메모리 사용량이 많아 대규모 애플리케이션에서는 제한적입니다. 이 글에서는 특히 양자화 기술(RaBitQ, PQ, SQ, ScaNN)과 결합된 IVF(Inverted File Index)와 같은 디스크 기반 대안이 대규모 데이터셋에서 속도와 확장성 면에서 우수하다고 주장합니다. IVF는 벡터의 양자화 및 압축을 통해 메모리 사용량을 줄이고, 효율적인 프리페칭 및 순차 스캔을 사용하여 검색 속도를 크게 향상시킵니다. 삽입 및 삭제 비용도 낮습니다. HNSW는 소규모 애플리케이션에서는 뛰어나지만, 대규모 데이터셋의 경우 양자화된 IVF가 더 유리한 선택입니다.

개발