StripeデータからのMRR抽出:落とし穴とSQL実装

2025-05-16
StripeデータからのMRR抽出:落とし穴とSQL実装

この記事では、Stripe APIからデータを取得し、月次経常収益(MRR)を計算する方法を詳しく説明しています。著者は、Stripeの`subscriptions`オブジェクトを直接使用することの信頼性の低さを指摘しています。これは、最新のサブスクリプションの状態しか含まれていないためです。正しい方法は、`invoice line items`を使用し、割引、異なる課金サイクル(月次、四半期ごと、年次など)などを処理することです。この記事では、データクレンジング、サイクルの正規化、最終的なMRR指標の計算(新規MRR、解約MRR、拡大MRR、再活性化MRRなど)を網羅した詳細なSQLコードを提供しています。この方法は調整可能でカスタマイズ可能であることを強調し、MRR計算を簡素化するアプリケーションを紹介しています。

続きを読む
開発 MRR計算

DeepSeekのsmallpondと3FS:ペタバイト規模のDuckDB拡張

2025-03-02
DeepSeekのsmallpondと3FS:ペタバイト規模のDuckDB拡張

DeepSeek AIは、ペタバイト規模のデータセットを処理するためにDuckDBデータベースを拡張するsmallpondと3FSをリリースしました。smallpondは、軽量な分散データ処理フレームワークであり、DuckDBが複数のノードで並列処理できるようにします。一方、3FSは、SSDとRDMAネットワーク技術を利用した高性能な並列ファイルシステムです。しかし、これらのツールの導入と使用は複雑で、専門的なハードウェアとDevOpsの専門知識が必要です。10TB未満のデータセットの場合、単一ノードのDuckDBインスタンスやより簡単なソリューションの方が効率的です。ペタバイト規模のデータセットを扱う場合にのみ、smallpondと3FSは利点を発揮します。

続きを読む

DuckDBにおけるストリーミングデータ処理:Arrow Flightによる同時書き込み制限の克服

2025-01-29
DuckDBにおけるストリーミングデータ処理:Arrow Flightによる同時書き込み制限の克服

Definiteのブログ記事では、Apache Arrow Flightを使用してDuckDBの同時書き込み制限を克服する巧妙な解決策を紹介しています。DuckDBは単一マシンでの分析に優れていますが、同時書き込みと読み込みのサポートがないため、リアルタイムストリーミングシナリオでの使用が制限されます。「Duck Takes Flight」というPythonスクリプトは、Arrow Flightサーバーを構築し、DuckDBへの同時書き込みと読み込みを可能にします。この200行のコードによるソリューションは効率的で、複雑なクラスタ設定を必要とせず、高性能なストリーム処理を提供し、迅速なデータ移動とオンザフライクエリを必要とするアプリケーションに新しいアプローチを提供します。

続きを読む
開発