SemHash:高速な意味論的テキスト重複除去

2025-01-12
SemHash:高速な意味論的テキスト重複除去

SemHashは、意味的類似性を使用してデータセットの重複除去を行う軽量で柔軟なツールです。Model2Vecによる高速な埋め込み生成と、Vicinityによる効率的なANNベースの類似性検索を組み合わせています。SemHashは、単一データセットと複数データセットの重複除去の両方をサポートし、テキストリストなどの単純なデータセットや、複数列のQAデータセットなどの複雑なデータセットを処理します。重複除去の結果を検査する機能も含まれており、データクレンジングプロセスの理解と改良が容易になります。ベンチマークテストでは、SemHashが非常に高速であり、数百万件のレコードを持つ大規模なデータセットにも対応できることが示されています。