Uma Comédia de Erros: Minha Biblioteca de Busca Amadora vs. Elasticsearch
2025-06-06
O autor compara sua biblioteca de busca de texto completo baseada em Pandas, SearchArray, com o Elasticsearch usando o benchmark BEIR. Os resultados são humilhantes: o SearchArray apresenta um desempenho significativamente inferior ao Elasticsearch em todos os aspectos. O artigo investiga os motivos, destacando as otimizações em mecanismos de busca prontos para produção, como o algoritmo WAND e índices invertidos eficientes. A falta dessas otimizações no SearchArray leva a um desempenho ruim. O autor conclui que o SearchArray é adequado para prototipagem em conjuntos de dados menores, mas não para sistemas de recuperação em larga escala.
Desenvolvimento