高效压缩向量ID以提升近似最近邻搜索
2025-01-23
研究人员提出了一种无损压缩向量ID的方法,以解决近似最近邻搜索中索引存储成本过高的难题。该方法基于非对称数值系统或小波树,利用向量ID在数据结构中顺序无关的特性,在不影响精度和搜索速度的情况下,最多可将向量ID压缩7倍,从而在十亿级数据集上减少30%的索引大小。此外,该方法还可通过利用原始量化算法中的次优性,对某些数据集的量化向量码进行无损压缩。
研究人员提出了一种无损压缩向量ID的方法,以解决近似最近邻搜索中索引存储成本过高的难题。该方法基于非对称数值系统或小波树,利用向量ID在数据结构中顺序无关的特性,在不影响精度和搜索速度的情况下,最多可将向量ID压缩7倍,从而在十亿级数据集上减少30%的索引大小。此外,该方法还可通过利用原始量化算法中的次优性,对某些数据集的量化向量码进行无损压缩。