构建可靠的RAG系统评估框架
2025-02-14

Qodo公司构建了一个基于检索增强生成(RAG)的AI代码助手,并开发了一个强大的评估框架来确保其准确性和全面性。评估面临的挑战包括验证基于大型私有数据集的RAG输出的正确性。该框架评估最终检索到的文档和最终生成的输出,关注“答案正确性”和“检索准确性”两个方面。为了应对自然语言输出的挑战,他们采用了“LLM作为评判者”的方法,并构建了一个包含真实问题、答案和上下文的ground truth数据集。为了提高效率,他们利用LLM辅助构建数据集,并使用LLM和RAGAS来评估答案的正确性。最终,他们构建了自己的LLM评判者,并将其与RAGAS结合使用,以提高评估的可靠性,并将其集成到工作流程中,实现了回归测试,显著降低了验证代码更改是否导致质量问题的难度。
开发