Une comédie d'erreurs : ma bibliothèque de recherche amateur contre Elasticsearch

2025-06-06
Une comédie d'erreurs : ma bibliothèque de recherche amateur contre Elasticsearch

L'auteur compare sa bibliothèque de recherche de texte intégral basée sur Pandas, SearchArray, à Elasticsearch en utilisant le benchmark BEIR. Les résultats sont humiliants : SearchArray est significativement moins performant qu'Elasticsearch dans tous les domaines. L'article explore les raisons de cette différence, en soulignant les optimisations des moteurs de recherche de production, telles que l'algorithme WAND et les index inversés efficaces. L'absence de ces optimisations dans SearchArray entraîne de mauvaises performances. L'auteur conclut que SearchArray convient au prototypage sur des ensembles de données plus petits, mais pas aux systèmes de recherche à grande échelle.

Développement