Incorporación de índices definidos por el usuario en archivos Apache Parquet

2025-07-15

Es un error común pensar que los archivos Apache Parquet están limitados a estadísticas básicas y filtros de Bloom. Esta publicación revela cómo incrustar índices personalizados directamente en los archivos Parquet sin romper la compatibilidad. Al aprovechar los metadatos del pie de página y el direccionamiento basado en desplazamiento, puede agregar índices como listas de valores distintos para columnas específicas, mejorando significativamente el rendimiento de las consultas, especialmente para predicados altamente selectivos. Los autores detallan el mecanismo y proporcionan un ejemplo práctico utilizando Apache DataFusion, que muestra cómo serializar, almacenar y leer estos índices personalizados. ¡Adiós a las complejidades y riesgos de los índices externos!