SemHash: Schnelle semantische Text-Deduplizierung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

SemHash: Schnelle semantische Text-Deduplizierung

2025-01-12

SemHash ist ein leichtgewichtiges und flexibles Werkzeug zur Deduplizierung von Datensätzen mithilfe semantischer Ähnlichkeit. Es kombiniert die schnelle Erzeugung von Einbettungen von Model2Vec mit einer effizienten ANN-basierten Ähnlichkeitssuche über Vicinity. SemHash unterstützt sowohl die Deduplizierung einzelner Datensätze als auch die Deduplizierung mehrerer Datensätze und verarbeitet sowohl einfache Datensätze wie Textlisten als auch komplexere Datensätze wie mehrspaltige QA-Datensätze. Es enthält Funktionen zur Inspektion der Deduplizierungsergebnisse, wodurch das Verständnis und die Verfeinerung Ihres Datenbereinigungsprozesses erleichtert werden. Benchmarks zeigen, dass SemHash extrem schnell ist und auf große Datensätze mit Millionen von Datensätzen skaliert.

(github.com)

Entwicklung Text-Deduplizierung semantische Ähnlichkeit Datenbereinigung

Vom Gefängnis zum Feuerwehrmann: Eine zweite Chance

Racket-Bibliothek für elegante HTML5-Generierung