本文探讨了何时以及如何在 Parquet 中使用布隆过滤器、它们对写入的 Parquet 文件的影响,并测量了它们在处理大量高基数数据时的效率。研究发现,中等布隆过滤器参数(FPP 为 0.01,NDV 为 1,000)在处理大量高基数数据时,以每个行组每列 2 KB 到 8 KB 的存储空间成本实现了最佳的剪枝效率。在这种情况下,使用布隆过滤器可以将查询时间缩短到 1/30。选择似乎与数据的基数相匹配的布隆过滤器参数会带来很大的存储损失,但这在实验中并不是必需的。