コード検索のベンチマーク:課題とVoyage AIのアプローチ

現代のコーディングアシスタントはコード検索に大きく依存していますが、既存の評価方法は不十分です。Voyage AIの研究は、現在のデータセットにおける問題点を浮き彫りにしています。ノイズの多いラベル、深層アルゴリズム的推論の評価不足、データ汚染などにより、モデル評価が信頼できない結果になります。これに対処するため、Voyage AIは高品質なコード検索データセットを作成するための2つの方法を提案しています。質問応答データセットの再利用と、GitHubのリポジトリと課題/チケットの活用です。Voyage AIは、複数のプログラミング言語、様々なQAデータセット、ドメイン固有のベンチマークを網羅した独自の内部ベンチマークスイートも構築し、複数のコード埋め込みモデルを評価しました。その結果、Voyage-code-3モデルが最高の性能を示しました。
続きを読む