SemHash: Desduplicación de Texto Semántico Rápida

2025-01-12
SemHash: Desduplicación de Texto Semántico Rápida

SemHash es una herramienta ligera y flexible para desduplicar conjuntos de datos usando similitud semántica. Combina la generación rápida de incrustaciones de Model2Vec con la búsqueda de similitud eficiente basada en ANN a través de Vicinity. SemHash admite la desduplicación de conjuntos de datos únicos y múltiples y maneja conjuntos de datos simples, como listas de texto, y conjuntos de datos complejos, como conjuntos de datos QA de varias columnas. Incluye funciones para inspeccionar los resultados de la desduplicación, lo que facilita la comprensión y el refinamiento del proceso de limpieza de datos. Los puntos de referencia muestran que SemHash es extremadamente rápido y escala a conjuntos de datos grandes con millones de registros.