RAGシステムのための堅牢な評価フレームワークの構築
2025-02-14

Qodo社は、検索拡張生成(RAG)に基づくAIコーディングアシスタントを構築し、その精度と包括性を確保するための堅牢な評価フレームワークを開発しました。課題には、大規模なプライベートデータセットから導き出されたRAG出力の正確性を検証することが含まれていました。このフレームワークは、最終的に取得されたドキュメントと最終的に生成された出力を評価し、「回答の正確性」と「検索の精度」に焦点を当てています。自然言語出力の課題に対処するために、「LLMを審査官として」というアプローチを採用し、現実的な質問、回答、コンテキストを含むground truthデータセットを作成しました。効率性を高めるために、LLMをデータセット構築に活用し、LLMとRAGASを使用して回答の正確性を評価しました。最終的に、独自のLLM審査官を構築し、RAGASと組み合わせることで信頼性を向上させ、回帰テストを伴うワークフローに統合し、コード変更が品質に及ぼす影響を検証する労力を大幅に削減しました。
開発