Voyage-3.5:更经济高效的嵌入模型

2025-05-24
Voyage-3.5:更经济高效的嵌入模型

Voyage AI发布了新一代嵌入模型Voyage-3.5和Voyage-3.5-lite,它们在保持与前代相同尺寸的同时,显著提升了检索质量,并且价格更低。与OpenAI-v3-large相比,Voyage-3.5和Voyage-3.5-lite的检索质量分别提高了8.26%和6.34%,成本却分别降低了2.2倍和6.5倍。它们支持多种嵌入维度和量化选项,并通过Matryoshka学习和量化感知训练实现,极大降低了向量数据库成本,同时保持了更高的检索精度。

阅读更多
AI

代码检索评估的挑战与Voyage AI的解决方案

2025-02-03
代码检索评估的挑战与Voyage AI的解决方案

现代代码助手广泛依赖代码检索技术,但现有评估方法存在缺陷。Voyage AI的研究指出,现有数据集存在标签噪声、缺乏深度算法推理能力评估以及数据污染等问题,导致模型评估结果不可靠。为此,Voyage AI提出两种构建高质量代码检索数据集的方法:一是利用问答数据集,二是利用GitHub代码库和问题/工单。Voyage AI还构建了自己的内部基准测试套件,包含多种编程语言、多种问答数据集和特定领域的基准测试,并对多个代码嵌入模型进行了评估,最终发现Voyage-code-3模型表现最佳。

阅读更多
开发

Voyage AI发布全新代码检索模型Voyage-code-3:更高精度,更低成本

2025-01-14
Voyage AI发布全新代码检索模型Voyage-code-3:更高精度,更低成本

Voyage AI发布了新一代代码检索模型Voyage-code-3,在32个数据集上平均超越OpenAI-v3-large和CodeSage-large 13.80%和16.81%。通过Matryoshka学习和量化(int8和二进制),Voyage-code-3显著降低了存储和搜索成本,同时保持了检索质量。它支持2048、1024、512和256维嵌入,以及多种量化格式,并具有32K token上下文长度。Voyage-code-3在代码检索方面表现出色,尤其是在处理算法推理和细微语法规则方面,其训练数据涵盖了海量代码和文本数据,并经过严格评估,确保了模型的鲁棒性和准确性。

阅读更多

Voyage-3和Voyage-3-lite:新一代小型但强大的通用嵌入模型

2024-11-24
Voyage-3和Voyage-3-lite:新一代小型但强大的通用嵌入模型

Voyage AI发布了新的通用嵌入模型Voyage-3和Voyage-3-lite。Voyage-3在检索质量上平均优于OpenAI v3 large 7.55%,同时成本降低2.2倍,嵌入维度缩小3倍。Voyage-3-lite的检索精度比OpenAI v3 large高3.82%,成本降低6.5倍,嵌入维度缩小6倍。这两种模型都支持32K token的上下文长度,是OpenAI的4倍。Voyage-3系列模型在多个领域(包括代码、法律、金融、多语言和长上下文)的检索任务中表现出色,并具有显著的成本和延迟优势。

阅读更多

Voyage AI 发布多模态嵌入模型 voyage-multimodal-3

2024-11-17
Voyage AI 发布多模态嵌入模型 voyage-multimodal-3

Voyage AI 发布了新的多模态嵌入模型 voyage-multimodal-3,能够处理交错的文本、图像和屏幕截图,无需复杂的文档解析。该模型在三个多模态检索任务(共20个数据集)中的检索准确度平均比表现次佳的模型高19.63%。voyage-multimodal-3 的架构类似于现代视觉语言转换器,支持文本和富含内容的图像(如文本、图形、表格、PDF、幻灯片等的屏幕截图),并能捕获关键的文本和视觉特征。与现有的多模态嵌入模型不同,voyage-multimodal-3 允许交错文本和图像,并在混合模态搜索方面表现更佳,有效解决了模态差距问题。

阅读更多
未分类 嵌入模型