Apache Parquet 파일에서 사용자 정의 색인 삽입

2025-07-15

Apache Parquet는 기본 통계 및 블룸 필터로만 제한된다는 오해가 일반적입니다. 이 게시물에서는 호환성을 깨뜨리지 않고 사용자 정의 색인을 Parquet 파일에 직접 삽입하는 방법을 보여줍니다. 푸터 메타데이터와 오프셋 기반 주소 지정을 활용하여 특정 열에 대한 고유 값 목록과 같은 색인을 추가하면 쿼리 성능이 크게 향상됩니다. 특히 매우 선택적인 술어의 경우에 두드러집니다. 저자는 이 메커니즘에 대한 자세한 내용과 Apache DataFusion을 사용한 실제 예를 제공하여 이러한 사용자 정의 색인을 직렬화, 저장 및 읽는 방법을 설명합니다. 외부 색인의 복잡성과 위험에 작별을 고하십시오!