Incorporación de índices definidos por el usuario en archivos Apache Parquet

2025-07-15

Es un error común pensar que los archivos Apache Parquet están limitados a estadísticas básicas y filtros de Bloom. Esta publicación revela cómo incrustar índices personalizados directamente en los archivos Parquet sin romper la compatibilidad. Al aprovechar los metadatos del pie de página y el direccionamiento basado en desplazamiento, puede agregar índices como listas de valores distintos para columnas específicas, mejorando significativamente el rendimiento de las consultas, especialmente para predicados altamente selectivos. Los autores detallan el mecanismo y proporcionan un ejemplo práctico utilizando Apache DataFusion, que muestra cómo serializar, almacenar y leer estos índices personalizados. ¡Adiós a las complejidades y riesgos de los índices externos!

Leer más

Apache DataFusion: Un potente motor de consultas extensible en Rust

2025-01-16

Apache DataFusion es un motor de consultas extensible escrito en Rust que utiliza Apache Arrow como su formato de memoria. Ofrece APIs SQL y DataFrame, cuenta con un excelente rendimiento y soporte integrado para CSV, Parquet, JSON y Avro. DataFusion dispone de un planificador de consultas completo, un motor de ejecución columnar, en streaming, multi-hilo, vectorizado y fuentes de datos particionadas. Es altamente personalizable, permitiendo la adición de fuentes de datos, lenguajes de consulta, funciones, operadores personalizados y mucho más. Subproyectos relacionados incluyen DataFusion Python (enlaces Python), DataFusion Ray (versión distribuida) y DataFusion Comet (acelerador Apache Spark).

Leer más
Desarrollo Motor de Consultas