SPANN：高效的十亿级近似最近邻搜索

SPANN：高效的十亿级近似最近邻搜索 (arxiv.org)

原文: [2111.08566] SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search

SPANN是一个高效的内存-磁盘混合近似最近邻搜索系统，它采用倒排索引方法，将posting lists的中心点存储在内存中，而将大型posting lists存储在磁盘中。SPANN通过减少磁盘访问次数和检索高质量的posting lists来保证磁盘访问效率和高召回率。在索引构建阶段，它采用分层平衡聚类算法来平衡posting lists的长度，并通过添加相应聚类中点的闭包来扩充posting lists。在搜索阶段，它使用query-aware方案动态修剪不必要的posting lists的访问。实验结果表明，SPANN比当前最先进的ANNS解决方案DiskANN快2倍，在三个十亿级数据集上达到相同的召回率90%，内存成本相同。

近似最近邻搜索

ANN

十亿级数据集

上一篇: 朝鲜数字地图应用程序的许可和API接口分析

下一篇: 逃离数据地狱

评论已经关闭！

返回首页