SmallPond: Ein leichtgewichtiges Data-Processing-Framework

2025-03-02
SmallPond: Ein leichtgewichtiges Data-Processing-Framework

SmallPond ist ein leichtgewichtiges, hochperformantes Data-Processing-Framework, das auf DuckDB und 3FS basiert. Es skaliert für Petabyte-große Datensätze, ohne langlebige Dienste zu benötigen, und unterstützt Python 3.8 bis 3.12. Die einfache API ermöglicht einfaches Laden, Verarbeiten und Speichern von Daten. Im GraySort-Benchmark auf einem Cluster mit 50 Compute- und 25 Storage-Nodes unter 3FS sortierte SmallPond 110,5 TiB Daten in 30 Minuten und 14 Sekunden mit einem durchschnittlichen Durchsatz von 3,66 TiB/min.

Entwicklung