コサイン類似度を安易に使わないで!
2025-01-14

この記事は、データサイエンスにおけるベクトル比較でコサイン類似度に過度に依存することのリスクを探っています。著者は、計算は簡単ですが、コサイン類似度はしばしば意味的な類似性を捉えられず、書き方やタイプミスなどの表面的なパターンに簡単に惑わされる可能性があると主張しています。この記事では、この問題を例示し、いくつかの改良された方法を提案しています。具体的には、LLMを直接比較に使用すること、タスク固有の埋め込みを作成するためのファインチューニングや転移学習、プロンプトエンジニアリング、テキストの前処理などです。著者は、コサイン類似度を安易に使うのではなく、具体的なニーズに基づいて適切な類似度尺度を選択する重要性を強調しています。