搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

SPANN:高效的十亿级近似最近邻搜索 (arxiv.org)

SPANN是一个高效的内存-磁盘混合近似最近邻搜索系统,它采用倒排索引方法,将posting lists的中心点存储在内存中,而将大型posting lists存储在磁盘中。SPANN通过减少磁盘访问次数和检索高质量的posting lists来保证磁盘访问效率和高召回率。在索引构建阶段,它采用分层平衡聚类算法来平衡posting lists的长度,并通过添加相应聚类中点的闭包来扩充posting lists。在搜索阶段,它使用query-aware方案动态修剪不必要的posting lists的访问。实验结果表明,SPANN比当前最先进的ANNS解决方案DiskANN快2倍,在三个十亿级数据集上达到相同的召回率90%,内存成本相同。