Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Construindo uma estrutura de avaliação robusta para sistemas RAG

2025-02-14

A Qodo construiu um assistente de codificação de IA baseado em geração aumentada por recuperação (RAG) e desenvolveu uma estrutura de avaliação robusta para garantir precisão e abrangência. Os desafios incluíam verificar a correção das saídas RAG derivadas de grandes conjuntos de dados privados. A estrutura avalia os documentos recuperados finais e a saída gerada final, focando na 'correção da resposta' e na 'precisão da recuperação'. Para lidar com os desafios das saídas de linguagem natural, eles empregaram uma abordagem 'LLM como juiz' e construíram um conjunto de dados de verdade fundamental com perguntas, respostas e contexto reais. Para maior eficiência, eles usaram LLMs para auxiliar na construção do conjunto de dados e usaram LLMs e RAGAS para avaliar a correção da resposta. Por fim, eles construíram seu próprio juiz LLM e o combinaram com o RAGAS para melhorar a confiabilidade, integrando-o em seu fluxo de trabalho com testes de regressão, reduzindo drasticamente o esforço para verificar o impacto das alterações de código na qualidade.