从Stripe数据中提取MRR:避坑指南及SQL实现

2025-05-16
从Stripe数据中提取MRR:避坑指南及SQL实现

本文介绍了如何从Stripe API提取数据并计算月均经常性收入(MRR)。作者指出直接使用Stripe的`subscriptions`对象不可靠,因为其只包含订阅的最新状态。正确的做法是使用`invoice line items`,并处理折扣、不同计费周期(月度、季度、年度)等问题。文中详细讲解了SQL代码,包括数据清洗、周期归一化以及最终MRR指标的计算,例如新增MRR、流失MRR、扩张MRR和重新激活MRR。文章还强调了该方法的适用性和可定制性,并推荐了一个简化MRR计算的应用。

阅读更多

DeepSeek的smallpond和3FS:为超大规模数据集设计的DuckDB扩展

2025-03-02
DeepSeek的smallpond和3FS:为超大规模数据集设计的DuckDB扩展

DeepSeek AI发布了smallpond和3FS,旨在扩展DuckDB数据库以处理PB级数据集。smallpond是一个轻量级的分布式数据处理框架,允许DuckDB在多节点上并行处理数据;而3FS则是一个高性能并行文件系统,利用SSD和RDMA网络技术提供极高的吞吐量。然而,这两个工具的部署和使用较为复杂,需要专业的硬件和DevOps技能,对于10TB以下的数据集,使用单节点DuckDB或其他更简单的方案更有效率。只有在处理超大规模数据集时,smallpond和3FS才展现出其优势。

阅读更多

DuckDB 的流式数据处理方案:利用 Apache Arrow Flight 解锁并发写入

2025-01-29
DuckDB 的流式数据处理方案:利用 Apache Arrow Flight 解锁并发写入

Definite 公司的一篇博文介绍了如何利用 Apache Arrow Flight 巧妙地解决 DuckDB 并发写入限制的问题。DuckDB 虽然在单机分析方面表现出色,但其不支持并发写入和读取的特性限制了其在实时数据流场景下的应用。作者通过一个名为“Duck Takes Flight”的 Python 脚本,构建了一个基于 Arrow Flight 的服务器,实现了对 DuckDB 的并发写入和读取。该方案简洁高效,只需 200 行代码,无需复杂的集群部署,便可实现高性能的流式数据处理,为需要快速数据移动和实时查询的应用提供了新的思路。

阅读更多