SemHash: Schnelle semantische Text-Deduplizierung
SemHash ist ein leichtgewichtiges und flexibles Werkzeug zur Deduplizierung von Datensätzen mithilfe semantischer Ähnlichkeit. Es kombiniert die schnelle Erzeugung von Einbettungen von Model2Vec mit einer effizienten ANN-basierten Ähnlichkeitssuche über Vicinity. SemHash unterstützt sowohl die Deduplizierung einzelner Datensätze als auch die Deduplizierung mehrerer Datensätze und verarbeitet sowohl einfache Datensätze wie Textlisten als auch komplexere Datensätze wie mehrspaltige QA-Datensätze. Es enthält Funktionen zur Inspektion der Deduplizierungsergebnisse, wodurch das Verständnis und die Verfeinerung Ihres Datenbereinigungsprozesses erleichtert werden. Benchmarks zeigen, dass SemHash extrem schnell ist und auf große Datensätze mit Millionen von Datensätzen skaliert.