DeepSeek 的 smallpond:基于 DuckDB 的轻量级分布式计算框架
2025-03-04
DeepSeek 发布了 smallpond,一个基于 DuckDB 的轻量级分布式计算框架,用于处理海量数据集。它采用延迟计算和 Ray 分布式计算,支持多种分区策略,并能与 DeepSeek 自研的 3FS 文件系统高效协同。虽然依赖 Ray 和 3FS 引入了额外的复杂性,但 smallpond 在易用性和性能之间取得了平衡,为数据工程师提供了一种处理 TB 级数据集的新选择。相比于 Spark 等重量级框架,smallpond 更轻便、易于上手,尤其适合那些不需要处理过于复杂查询的中小型公司。
开发