使用SQL进行采样 2024-10-20 文章介绍了如何使用SQL语言进行高效的随机采样,特别是针对大规模数据集。文章首先介绍了A-ES算法,该算法可以进行带权重的无放回采样,并通过泊松过程的原理解释了算法的正确性。接着,文章讨论了如何优化采样速度,例如只读取必要的列和使用确定性伪随机函数。最后,文章扩展了A-ES算法,使其能够进行带权重的有放回采样。 阅读更多 (blog.moertel.com) 23 未分类