SmallPond: 경량 데이터 처리 프레임워크

2025-03-02
SmallPond: 경량 데이터 처리 프레임워크

SmallPond는 DuckDB와 3FS를 기반으로 구축된 경량적이고 고성능의 데이터 처리 프레임워크입니다. 페타바이트 규모의 데이터 세트를 쉽게 처리할 수 있으며, 장시간 실행되는 서비스가 필요하지 않습니다. Python 3.8부터 3.12까지 지원합니다. 간단한 API를 통해 데이터 로드, 처리 및 저장이 용이합니다. 3FS를 실행하는 50개의 컴퓨팅 노드와 25개의 스토리지 노드로 구성된 클러스터에서 GraySort 벤치마크를 사용한 결과, SmallPond는 110.5 TiB의 데이터를 30분 14초 만에 정렬하여 평균 처리량 3.66 TiB/분을 달성했습니다.

개발