SemHash: Desduplicação de Texto Semântico Rápida
2025-01-12
SemHash é uma ferramenta leve e flexível para desduplicar conjuntos de dados usando similaridade semântica. Combina geração rápida de embeddings do Model2Vec com busca de similaridade eficiente baseada em ANN através do Vicinity. O SemHash suporta desduplicação de conjunto de dados único e múltiplo e lida com conjuntos de dados simples, como listas de texto, e conjuntos de dados complexos, como conjuntos de dados QA de várias colunas. Inclui funções para inspecionar os resultados da desduplicação, facilitando a compreensão e o refinamento do processo de limpeza de dados. Benchmarks mostram que o SemHash é extremamente rápido e escala para conjuntos de dados grandes com milhões de registros.