SemHash: 基于语义的快速文本去重工具

2025-01-12
SemHash: 基于语义的快速文本去重工具

SemHash是一个轻量级、灵活的语义文本去重工具,它结合了Model2Vec的快速嵌入生成和Vicinity的高效基于近似最近邻的相似性搜索。SemHash支持单数据集和多数据集去重,并能处理文本列表等简单数据集和多列QA数据集等复杂数据集。它还提供结果检查功能,方便用户理解和优化数据清洗流程。基准测试显示,SemHash速度极快,可扩展至数百万条记录的大型数据集。