Apache Parquet 파일에서 사용자 정의 색인 삽입

2025-07-15

Apache Parquet는 기본 통계 및 블룸 필터로만 제한된다는 오해가 일반적입니다. 이 게시물에서는 호환성을 깨뜨리지 않고 사용자 정의 색인을 Parquet 파일에 직접 삽입하는 방법을 보여줍니다. 푸터 메타데이터와 오프셋 기반 주소 지정을 활용하여 특정 열에 대한 고유 값 목록과 같은 색인을 추가하면 쿼리 성능이 크게 향상됩니다. 특히 매우 선택적인 술어의 경우에 두드러집니다. 저자는 이 메커니즘에 대한 자세한 내용과 Apache DataFusion을 사용한 실제 예를 제공하여 이러한 사용자 정의 색인을 직렬화, 저장 및 읽는 방법을 설명합니다. 외부 색인의 복잡성과 위험에 작별을 고하십시오!

더 보기

Apache DataFusion: Rust로 작성된 강력하고 확장 가능한 쿼리 엔진

2025-01-16

Apache DataFusion은 Apache Arrow를 인메모리 형식으로 사용하는 Rust로 작성된 확장 가능한 쿼리 엔진입니다. SQL 및 DataFrame API를 제공하며 CSV, Parquet, JSON, Avro 등 다양한 데이터 형식을 지원하고 뛰어난 성능과 사용자 정의 기능을 제공합니다. DataFusion은 완벽한 쿼리 플래너, 열 지향적, 스트리밍, 멀티스레드, 벡터화된 실행 엔진 및 파티셔닝된 데이터 소스를 갖추고 있습니다. 데이터 소스, 쿼리 언어, 함수, 사용자 정의 연산자 등을 추가하여 거의 모든 부분을 사용자 정의할 수 있습니다. 관련 하위 프로젝트로는 DataFusion Python(Python 바인딩), DataFusion Ray(분산 버전), DataFusion Comet(Apache Spark 가속기) 등이 있습니다.

더 보기
개발 쿼리 엔진