SmallPond: Un framework ligero de procesamiento de datos

2025-03-02
SmallPond: Un framework ligero de procesamiento de datos

SmallPond es un framework ligero y de alto rendimiento para el procesamiento de datos, construido sobre DuckDB y 3FS. Escala para manejar conjuntos de datos de petabytes sin necesidad de servicios de larga ejecución y admite Python 3.8-3.12. Su API simple permite una fácil carga, procesamiento y guardado de datos. Evaluado con el benchmark GraySort en un clúster de 50 nodos de computación y 25 nodos de almacenamiento ejecutando 3FS, SmallPond ordenó 110,5 TiB de datos en 30 minutos y 14 segundos, alcanzando un rendimiento promedio de 3,66 TiB/min.

Desarrollo