Construyendo un marco de evaluación robusto para sistemas RAG

2025-02-14
Construyendo un marco de evaluación robusto para sistemas RAG

Qodo construyó un asistente de codificación de IA basado en generación aumentada por recuperación (RAG) y desarrolló un marco de evaluación robusto para asegurar la precisión y la exhaustividad. Los desafíos incluían verificar la corrección de las salidas RAG derivadas de grandes conjuntos de datos privados. El marco evalúa los documentos recuperados finales y la salida generada final, centrándose en la 'corrección de la respuesta' y la 'precisión de la recuperación'. Para abordar los desafíos de las salidas de lenguaje natural, emplearon un enfoque de 'LLM como juez' y construyeron un conjunto de datos de verdad fundamental con preguntas, respuestas y contexto reales. Para mayor eficiencia, utilizaron LLMs para ayudar en la construcción del conjunto de datos y usaron LLMs y RAGAS para evaluar la corrección de la respuesta. Finalmente, construyeron su propio juez LLM y lo combinaron con RAGAS para mejorar la fiabilidad, integrándolo en su flujo de trabajo con pruebas de regresión, reduciendo drásticamente el esfuerzo para verificar el impacto de los cambios de código en la calidad.