RAG 시스템을 위한 강력한 평가 프레임워크 구축

2025-02-14
RAG 시스템을 위한 강력한 평가 프레임워크 구축

Qodo는 검색 증강 생성(RAG) 기반 AI 코딩 어시스턴트를 구축하고 정확성과 포괄성을 보장하기 위한 강력한 평가 프레임워크를 개발했습니다. 과제에는 대규모 비공개 데이터셋에서 도출된 RAG 출력의 정확성을 검증하는 것이 포함되었습니다. 이 프레임워크는 최종 검색된 문서와 최종 생성된 출력을 평가하며, '답변 정확성'과 '검색 정확도'에 중점을 둡니다. 자연어 출력의 과제를 해결하기 위해 'LLM을 심사관으로' 사용하는 접근 방식을 채택하고 현실적인 질문, 답변 및 컨텍스트를 포함하는 ground truth 데이터셋을 만들었습니다. 효율성을 높이기 위해 LLM을 데이터셋 구축에 활용하고 LLM과 RAGAS를 사용하여 답변의 정확성을 평가했습니다. 최종적으로 고유한 LLM 심사관을 구축하고 RAGAS와 결합하여 신뢰성을 높였으며, 회귀 테스트를 포함하는 워크플로에 통합하여 코드 변경이 품질에 미치는 영향을 검증하는 노력을 크게 줄였습니다.

개발