Voyage-3.5:コストパフォーマンスに優れた次世代埋め込みモデル

2025-05-24
Voyage-3.5:コストパフォーマンスに優れた次世代埋め込みモデル

Voyage AIは、次世代埋め込みモデルであるVoyage-3.5とVoyage-3.5-liteを発表しました。これらは、前身モデルと同じサイズを維持しながら、低コストで検索品質の大幅な向上を実現します。OpenAIのv3-largeと比較して、Voyage-3.5とVoyage-3.5-liteは、それぞれ8.26%と6.34%の検索品質向上を示し、コストはそれぞれ2.2倍と6.5倍低くなっています。Matryoshka学習と量子化認識トレーニングを通じて、複数の埋め込み次元と量子化オプションをサポートし、ベクトルデータベースのコストを大幅に削減しながら、優れた精度を維持します。

続きを読む
AI

コード検索のベンチマーク:課題とVoyage AIのアプローチ

2025-02-03
コード検索のベンチマーク:課題とVoyage AIのアプローチ

現代のコーディングアシスタントはコード検索に大きく依存していますが、既存の評価方法は不十分です。Voyage AIの研究は、現在のデータセットにおける問題点を浮き彫りにしています。ノイズの多いラベル、深層アルゴリズム的推論の評価不足、データ汚染などにより、モデル評価が信頼できない結果になります。これに対処するため、Voyage AIは高品質なコード検索データセットを作成するための2つの方法を提案しています。質問応答データセットの再利用と、GitHubのリポジトリと課題/チケットの活用です。Voyage AIは、複数のプログラミング言語、様々なQAデータセット、ドメイン固有のベンチマークを網羅した独自の内部ベンチマークスイートも構築し、複数のコード埋め込みモデルを評価しました。その結果、Voyage-code-3モデルが最高の性能を示しました。

続きを読む

Voyage-code-3:より正確なコード検索、低コストを実現

2025-01-14
Voyage-code-3:より正確なコード検索、低コストを実現

Voyage AIは、次世代のコード検索埋め込みモデルであるVoyage-code-3を発表しました。32個のデータセットにおいて、OpenAI-v3-largeとCodeSage-largeを平均13.80%と16.81%上回りました。Matryoshka学習と量子化(int8とバイナリ)を活用することで、検索品質への影響を最小限に抑えながら、ストレージと検索コストを大幅に削減します。2048、1024、512、256次元の埋め込みと様々な量子化フォーマットをサポートし、32Kトークンのコンテキスト長を誇ります。大規模で多様なコードコーパスでトレーニングされたVoyage-code-3は、特にアルゴリズム的推論と微妙な構文規則の処理において、コード検索において優れた性能を発揮し、堅牢性と精度が厳格に評価されています。

続きを読む