Construction d'un cadre d'évaluation robuste pour les systèmes RAG
Qodo a construit un assistant de codage IA basé sur la génération augmentée par la récupération (RAG) et a développé un cadre d'évaluation robuste pour garantir la précision et l'exhaustivité. Les défis comprenaient la vérification de l'exactitude des sorties RAG dérivées de grands corpus de données privés. Le cadre évalue les documents récupérés finaux et la sortie générée finale, en se concentrant sur la « correction de la réponse » et la « précision de la récupération ». Pour relever les défis des sorties de langage naturel, ils ont utilisé une approche « LLM comme juge » et ont construit un ensemble de données de vérité terrain avec des questions, des réponses et un contexte réels. Pour plus d'efficacité, ils ont utilisé des LLMs pour aider à la construction de l'ensemble de données et ont utilisé des LLMs et RAGAS pour évaluer l'exactitude de la réponse. Enfin, ils ont construit leur propre juge LLM et l'ont combiné avec RAGAS pour améliorer la fiabilité, l'intégrant à leur flux de travail avec des tests de régression, réduisant ainsi considérablement l'effort pour vérifier l'impact des modifications de code sur la qualité.