Construindo uma estrutura de avaliação robusta para sistemas RAG

2025-02-14
Construindo uma estrutura de avaliação robusta para sistemas RAG

A Qodo construiu um assistente de codificação de IA baseado em geração aumentada por recuperação (RAG) e desenvolveu uma estrutura de avaliação robusta para garantir precisão e abrangência. Os desafios incluíam verificar a correção das saídas RAG derivadas de grandes conjuntos de dados privados. A estrutura avalia os documentos recuperados finais e a saída gerada final, focando na 'correção da resposta' e na 'precisão da recuperação'. Para lidar com os desafios das saídas de linguagem natural, eles empregaram uma abordagem 'LLM como juiz' e construíram um conjunto de dados de verdade fundamental com perguntas, respostas e contexto reais. Para maior eficiência, eles usaram LLMs para auxiliar na construção do conjunto de dados e usaram LLMs e RAGAS para avaliar a correção da resposta. Por fim, eles construíram seu próprio juiz LLM e o combinaram com o RAGAS para melhorar a confiabilidade, integrando-o em seu fluxo de trabalho com testes de regressão, reduzindo drasticamente o esforço para verificar o impacto das alterações de código na qualidade.

Desenvolvimento Avaliação de LLM