Intégration d'index définis par l'utilisateur dans les fichiers Apache Parquet

2025-07-15

Il est courant de croire à tort que les fichiers Apache Parquet sont limités aux statistiques de base et aux filtres de Bloom. Cet article explique comment intégrer des index personnalisés directement dans les fichiers Parquet sans rompre la compatibilité. En utilisant les métadonnées du pied de page et l'adressage basé sur les décalages, vous pouvez ajouter des index tels que des listes de valeurs distinctes pour des colonnes spécifiques, améliorant ainsi considérablement les performances des requêtes, notamment pour les prédicats hautement sélectifs. Les auteurs détaillent le mécanisme et fournissent un exemple pratique utilisant Apache DataFusion, montrant comment sérialiser, stocker et lire ces index personnalisés. Dites adieu à la complexité et aux risques des index externes !

Lire plus

Apache DataFusion : Un moteur de requête extensible et performant en Rust

2025-01-16

Apache DataFusion est un moteur de requête extensible écrit en Rust qui utilise Apache Arrow comme format mémoire. Il offre des API SQL et DataFrame, des performances excellentes et un support intégré pour CSV, Parquet, JSON et Avro. DataFusion possède un planificateur de requêtes complet, un moteur d'exécution colonnaire, en streaming, multithreadé, vectorisé et des sources de données partitionnées. Il est hautement personnalisable, permettant l'ajout de sources de données, de langages de requête, de fonctions, d'opérateurs personnalisés et plus encore. Des sous-projets connexes incluent DataFusion Python (liaisons Python), DataFusion Ray (version distribuée) et DataFusion Comet (accélérateur Apache Spark).

Lire plus
Développement Moteur de Requête