搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

利用 Parquet 的布隆过滤器 (www.influxdata.com)

本文探讨了何时以及如何在 Parquet 中使用布隆过滤器、它们对写入的 Parquet 文件的影响,并测量了它们在处理大量高基数数据时的效率。研究发现,中等布隆过滤器参数(FPP 为 0.01,NDV 为 1,000)在处理大量高基数数据时,以每个行组每列 2 KB 到 8 KB 的存储空间成本实现了最佳的剪枝效率。在这种情况下,使用布隆过滤器可以将查询时间缩短到 1/30。选择似乎与数据的基数相匹配的布隆过滤器参数会带来很大的存储损失,但这在实验中并不是必需的。