بناء إطار تقييم قوي لأنظمة RAG

2025-02-14
بناء إطار تقييم قوي لأنظمة RAG

بنت شركة Qodo مساعد ترميز ذكاء اصطناعي قائم على توليد التعزيز بالاسترجاع (RAG) ، ووضعت إطار تقييم قوي لضمان الدقة والشمولية. وتضمنت التحديات التحقق من صحة مخرجات RAG المستمدة من مجموعات بيانات خاصة ضخمة. يقيم الإطار المستندات المسترجعة النهائية والمخرجات النهائية المولدة ، مع التركيز على "صحة الإجابة" و "دقة الاسترجاع". ولمعالجة تحديات مخرجات اللغة الطبيعية ، استخدموا نهج "LLM كقاضي" ، وقاموا بإنشاء مجموعة بيانات حقيقية تحتوي على أسئلة وإجابات وسياق حقيقي. ولزيادة الكفاءة ، استخدموا LLMs للمساعدة في إنشاء مجموعة البيانات ، واستخدموا LLMs و RAGAS لتقييم صحة الإجابة. وفي النهاية ، قاموا بإنشاء قاضي LLM خاص بهم ودمجوه مع RAGAS لتحسين الموثوقية ، مع دمجه في سير العمل الخاص بهم مع اختبارات الانحدار ، مما قلل بشكل كبير من الجهد المبذول للتحقق من تأثير تغييرات التعليمات البرمجية على الجودة.

التطوير تقييم LLM