SmallPond: Uma estrutura de processamento de dados leve

2025-03-02
SmallPond: Uma estrutura de processamento de dados leve

SmallPond é uma estrutura de processamento de dados leve e de alto desempenho, construída com DuckDB e 3FS. Ele escala para lidar com conjuntos de dados em escala de petabytes sem exigir serviços de longa execução e suporta Python 3.8-3.12. Sua API simples permite fácil carregamento, processamento e salvamento de dados. Com base no benchmark GraySort em um cluster de 50 nós de computação e 25 nós de armazenamento executando 3FS, o SmallPond classificou 110,5 TiB de dados em 30 minutos e 14 segundos, atingindo uma taxa de transferência média de 3,66 TiB/min.

Desenvolvimento