Intégration d'index définis par l'utilisateur dans les fichiers Apache Parquet
Il est courant de croire à tort que les fichiers Apache Parquet sont limités aux statistiques de base et aux filtres de Bloom. Cet article explique comment intégrer des index personnalisés directement dans les fichiers Parquet sans rompre la compatibilité. En utilisant les métadonnées du pied de page et l'adressage basé sur les décalages, vous pouvez ajouter des index tels que des listes de valeurs distinctes pour des colonnes spécifiques, améliorant ainsi considérablement les performances des requêtes, notamment pour les prédicats hautement sélectifs. Les auteurs détaillent le mécanisme et fournissent un exemple pratique utilisant Apache DataFusion, montrant comment sérialiser, stocker et lire ces index personnalisés. Dites adieu à la complexité et aux risques des index externes !