问卷集合与所有路径

2024-11-12

本文探讨了在包含是/否题目的问卷调查中,所有可能的答案组合数量的计算方法。作者未能找到一个通用的公式,但使用Python和NetworkX库编写了一个函数,通过创建有向图并查找所有可能的路径来生成所有唯一的答案集合。文章指出,终止节点在树中的位置会影响路径总数,较早的终止节点会导致较少的路径。文章最后建议,在设计问卷时,应将最有可能淘汰用户的终止性问题放在前面,以减少用户和开发者处理的复杂性。

阅读更多
未分类 NetworkX

西装、洗钱和线性规划

2024-10-31

作者受到电视剧《Suits》中洗钱情节的启发,探讨用线性规划识别洗钱账户的可行性。他模拟了大量账户,随机选择几个账户作为洗钱目标,并用Python和Pulp库编写线性程序来查找总和等于目标金额的账户组合。虽然程序能快速找到可行的解,但存在大量随机组合也能满足条件,导致实际应用中假阳性过高。即使增加约束条件(如账户数量、交易金额较大等),仍然存在大量可行解,使得线性规划在洗钱调查中难以有效应用。

阅读更多
未分类

泊松分布设计与最小可检测效应

2024-07-29

本文探讨了在泊松分布设计中,统计功效如何完全取决于处理组和对照组的总计数,而不是简单地将数据切片成更精细的时间段就能提高。作者介绍了最小可检测效应量(MDE)的概念,作为功效分析的替代方法,并通过模拟案例解释了如何根据MDE确定研究所需的样本量。

阅读更多

代码行数统计

2024-07-29

本文作者分享了自己统计代码行数的经验。通过命令行工具,作者统计出自己近期项目中大约包含3万行Python代码,并估算每天编写约143行代码。作者还对比了Python代码与R代码、SPSS代码的行数差异,并分析了造成差异的原因。

阅读更多
未分类 代码统计