SemHash: أداة سريعة لإزالة الازدواجية النصية الدلالية
2025-01-12
SemHash هي أداة خفيفة ومرنة لإزالة الازدواجية من مجموعات البيانات باستخدام التشابه الدلالي. تجمع بين توليد التضمين السريع من Model2Vec وبحث التشابه الفعال القائم على ANN من خلال Vicinity. تدعم SemHash إزالة الازدواجية من مجموعة بيانات واحدة أو مجموعات بيانات متعددة، وتتعامل مع مجموعات البيانات البسيطة مثل قوائم النصوص، ومجموعات البيانات المعقدة مثل مجموعات بيانات QA متعددة الأعمدة. تتضمن وظائف لفحص نتائج إزالة الازدواجية، مما يسهل فهم وتحسين عملية تنظيف البيانات. تُظهر المقاييس أن SemHash سريع للغاية، وقابل للتوسع إلى مجموعات بيانات كبيرة تحتوي على ملايين السجلات.