代码检索评估的挑战与Voyage AI的解决方案
2025-02-03
现代代码助手广泛依赖代码检索技术,但现有评估方法存在缺陷。Voyage AI的研究指出,现有数据集存在标签噪声、缺乏深度算法推理能力评估以及数据污染等问题,导致模型评估结果不可靠。为此,Voyage AI提出两种构建高质量代码检索数据集的方法:一是利用问答数据集,二是利用GitHub代码库和问题/工单。Voyage AI还构建了自己的内部基准测试套件,包含多种编程语言、多种问答数据集和特定领域的基准测试,并对多个代码嵌入模型进行了评估,最终发现Voyage-code-3模型表现最佳。
开发