Aufbau eines robusten Bewertungsrahmens für RAG-Systeme
Qodo hat einen KI-Codierungsassistenten auf Basis von Retrieval Augmented Generation (RAG) entwickelt und einen robusten Bewertungsrahmen geschaffen, um Genauigkeit und Vollständigkeit zu gewährleisten. Herausforderungen bestanden darin, die Richtigkeit von RAG-Ausgaben zu überprüfen, die von großen, privaten Datensätzen abgeleitet wurden. Der Rahmen bewertet die endgültig abgerufenen Dokumente und die endgültige generierte Ausgabe, wobei der Fokus auf „Antwortkorrektheit“ und „Abrufakkuratesse“ liegt. Um die Herausforderungen von Ausgaben in natürlicher Sprache zu bewältigen, wurde ein „LLM als Beurteiler“-Ansatz verwendet und ein Ground-Truth-Datensatz mit realen Fragen, Antworten und Kontext erstellt. Für mehr Effizienz wurden LLMs zur Unterstützung der Datensatzerstellung eingesetzt, und LLMs und RAGAS wurden verwendet, um die Antwortkorrektheit zu bewerten. Schließlich wurde ein eigener LLM-Beurteiler entwickelt und mit RAGAS kombiniert, um die Zuverlässigkeit zu verbessern und ihn mit Regressionstests in den Workflow zu integrieren, wodurch der Aufwand zur Überprüfung der Auswirkungen von Codeänderungen auf die Qualität drastisch reduziert wurde.