Incorporando Índices Definidos pelo Usuário em Arquivos Apache Parquet
2025-07-15
É um equívoco comum que os arquivos Apache Parquet sejam limitados a estatísticas básicas e filtros de Bloom. Esta postagem mostra como incorporar índices personalizados diretamente nos arquivos Parquet sem quebrar a compatibilidade. Ao aproveitar os metadados do rodapé e o endereçamento baseado em offset, você pode adicionar índices como listas de valores distintos para colunas específicas, melhorando significativamente o desempenho de consultas, especialmente para predicados altamente seletivos. Os autores detalham o mecanismo e fornecem um exemplo prático usando Apache DataFusion, mostrando como serializar, armazenar e ler esses índices personalizados. Diga adeus às complexidades e riscos dos índices externos!