PostgreSQL에서 ColBERT 재순위 지정을 사용한 벡터 검색 향상
2025-01-24
기존 벡터 검색은 문장 임베딩에 의존하며, 세부 정보가 손실될 수 있습니다. ColBERT는 텍스트를 토큰 수준의 다중 벡터로 표현하여 더 많은 뉘앙스 정보를 유지하고 검색 정확도를 향상시킵니다. 그러나 토큰 수준의 상호 작용은 계산 비용이 많이 듭니다. 이 블로그 게시물에서는 PostgreSQL 확장 프로그램인 VectorChord와 pgvector를 사용하여 문장 수준 벡터 검색과 ColBERT 토큰 수준 재순위 지정을 결합하는 방법을 보여줍니다. 이 접근 방식은 문장 임베딩을 사용하여 빠른 초기 검색을 수행한 다음 ColBERT로 재순위 지정하여 결과를 개선합니다. 여러 BEIR 데이터 세트에서 상당한 개선이 관찰되었습니다.
개발
벡터 검색