Una Comedia de Errores: Mi Biblioteca de Búsqueda Amateur vs. Elasticsearch

2025-06-06
Una Comedia de Errores: Mi Biblioteca de Búsqueda Amateur vs. Elasticsearch

El autor compara su biblioteca de búsqueda de texto completo basada en Pandas, SearchArray, con Elasticsearch utilizando el benchmark BEIR. Los resultados son humillantes: SearchArray tiene un rendimiento significativamente inferior al de Elasticsearch en todos los aspectos. El artículo profundiza en las razones, destacando las optimizaciones en motores de búsqueda listos para producción, como el algoritmo WAND e índices invertidos eficientes. La falta de estas optimizaciones en SearchArray conduce a un rendimiento deficiente. El autor concluye que SearchArray es adecuado para prototipado en conjuntos de datos más pequeños, pero no para sistemas de recuperación a gran escala.

Desarrollo