SmallPond:基于DuckDB和3FS的轻量级数据处理框架
2025-03-02
SmallPond是一个基于DuckDB和3FS构建的轻量级高性能数据处理框架,能够轻松处理PB级数据集,无需长时间运行的服务。它支持Python 3.8到3.12版本。通过简单的API,用户可以加载、处理和保存数据。GraySort基准测试显示,SmallPond在由50个计算节点和25个存储节点组成的集群上,在30分钟14秒内对110.5TiB的数据进行排序,平均吞吐量达3.66TiB/min。
开发
3FS