SmallPond:軽量なデータ処理フレームワーク

2025-03-02
SmallPond:軽量なデータ処理フレームワーク

SmallPondは、DuckDBと3FS上に構築された軽量で高性能なデータ処理フレームワークです。ペタバイト規模のデータセットを容易に処理でき、長時間実行されるサービスは必要ありません。Python 3.8から3.12をサポートしています。シンプルなAPIにより、データの読み込み、処理、保存が容易に行えます。50個のコンピューティングノードと25個のストレージノードからなる3FSを実行するクラスタでGraySortベンチマークを使用した結果、SmallPondは110.5 TiBのデータを30分14秒でソートし、平均スループット3.66 TiB/分を達成しました。

開発