Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-02-03

現代のコーディングアシスタントはコード検索に大きく依存していますが、既存の評価方法は不十分です。Voyage AIの研究は、現在のデータセットにおける問題点を浮き彫りにしています。ノイズの多いラベル、深層アルゴリズム的推論の評価不足、データ汚染などにより、モデル評価が信頼できない結果になります。これに対処するため、Voyage AIは高品質なコード検索データセットを作成するための2つの方法を提案しています。質問応答データセットの再利用と、GitHubのリポジトリと課題/チケットの活用です。Voyage AIは、複数のプログラミング言語、様々なQAデータセット、ドメイン固有のベンチマークを網羅した独自の内部ベンチマークスイートも構築し、複数のコード埋め込みモデルを評価しました。その結果、Voyage-code-3モデルが最高の性能を示しました。

Voyage-code-3：より正確なコード検索、低コストを実現

2025-01-14

Voyage AIは、次世代のコード検索埋め込みモデルであるVoyage-code-3を発表しました。32個のデータセットにおいて、OpenAI-v3-largeとCodeSage-largeを平均13.80％と16.81％上回りました。Matryoshka学習と量子化（int8とバイナリ）を活用することで、検索品質への影響を最小限に抑えながら、ストレージと検索コストを大幅に削減します。2048、1024、512、256次元の埋め込みと様々な量子化フォーマットをサポートし、32Kトークンのコンテキスト長を誇ります。大規模で多様なコードコーパスでトレーニングされたVoyage-code-3は、特にアルゴリズム的推論と微妙な構文規則の処理において、コード検索において優れた性能を発揮し、堅牢性と精度が厳格に評価されています。

コード検索のベンチマーク：課題とVoyage AIのアプローチ

Voyage-code-3：より正確なコード検索、低コストを実現