SmallPond : Un framework léger de traitement de données
2025-03-02
SmallPond est un framework léger et performant de traitement de données, basé sur DuckDB et 3FS. Il est capable de gérer des ensembles de données de plusieurs pétaoctets sans nécessiter de services à longue durée d'exécution et supporte Python 3.8 à 3.12. Son API simple permet un chargement, un traitement et un enregistrement faciles des données. Évalué avec le benchmark GraySort sur un cluster de 50 nœuds de calcul et 25 nœuds de stockage exécutant 3FS, SmallPond a trié 110,5 TiB de données en 30 minutes et 14 secondes, atteignant un débit moyen de 3,66 TiB/min.
Développement