搜索技巧 核手提箱 海洋云增白 Bliss AI 搜索答案 深海沉船 自由职业 policy 颈挂空调 Chumby 个人电脑 极端主义 世界 PostgreSQL AI工具 DirectX 防溢 DrawingPics 儿童读物 化学 连续滚动 代码审查 KDE 游戏测试 多动症 超级计算机 植物学 分析化学 Three.js 三菱电机 更多

利用 Parquet 的布隆过滤器 (www.influxdata.com)

本文探讨了何时以及如何在 Parquet 中使用布隆过滤器、它们对写入的 Parquet 文件的影响,并测量了它们在处理大量高基数数据时的效率。研究发现,中等布隆过滤器参数(FPP 为 0.01,NDV 为 1,000)在处理大量高基数数据时,以每个行组每列 2 KB 到 8 KB 的存储空间成本实现了最佳的剪枝效率。在这种情况下,使用布隆过滤器可以将查询时间缩短到 1/30。选择似乎与数据的基数相匹配的布隆过滤器参数会带来很大的存储损失,但这在实验中并不是必需的。

评论已经关闭!