SemHash : Déduplication de texte sémantique rapide

2025-01-12
SemHash : Déduplication de texte sémantique rapide

SemHash est un outil léger et flexible pour la déduplication de jeux de données utilisant la similarité sémantique. Il combine une génération rapide d'embeddings à partir de Model2Vec avec une recherche de similarité efficace basée sur ANN via Vicinity. SemHash prend en charge la déduplication de jeux de données uniques et multiples et gère les jeux de données simples, tels que les listes de texte, et les jeux de données complexes, tels que les jeux de données QA multi-colonnes. Il inclut des fonctions pour inspecter les résultats de la déduplication, facilitant ainsi la compréhension et le raffinement de votre processus de nettoyage de données. Les benchmarks montrent que SemHash est extrêmement rapide et s'adapte aux grands jeux de données contenant des millions d'enregistrements.