代码库问答基准数据集:Deep Code Bench

2025-09-11
代码库问答基准数据集:Deep Code Bench

Qodo团队发布了Deep Code Bench,一个基于大型复杂代码库中真实问题的全新基准数据集。该数据集包含从代码拉取请求中提取的真实问题和答案,旨在更好地评估代码检索系统的性能。与现有基准不同,Deep Code Bench 的问题需要跨多个文件进行检索,更贴近真实的开发场景。研究人员使用了大型语言模型生成问题和答案,并采用了事实召回机制进行评估,最终结果表明Qodo的深度研究代理在事实召回率上表现最佳。