بناء إطار تقييم قوي لأنظمة RAG

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-02-14

بنت شركة Qodo مساعد ترميز ذكاء اصطناعي قائم على توليد التعزيز بالاسترجاع (RAG) ، ووضعت إطار تقييم قوي لضمان الدقة والشمولية. وتضمنت التحديات التحقق من صحة مخرجات RAG المستمدة من مجموعات بيانات خاصة ضخمة. يقيم الإطار المستندات المسترجعة النهائية والمخرجات النهائية المولدة ، مع التركيز على "صحة الإجابة" و "دقة الاسترجاع". ولمعالجة تحديات مخرجات اللغة الطبيعية ، استخدموا نهج "LLM كقاضي" ، وقاموا بإنشاء مجموعة بيانات حقيقية تحتوي على أسئلة وإجابات وسياق حقيقي. ولزيادة الكفاءة ، استخدموا LLMs للمساعدة في إنشاء مجموعة البيانات ، واستخدموا LLMs و RAGAS لتقييم صحة الإجابة. وفي النهاية ، قاموا بإنشاء قاضي LLM خاص بهم ودمجوه مع RAGAS لتحسين الموثوقية ، مع دمجه في سير العمل الخاص بهم مع اختبارات الانحدار ، مما قلل بشكل كبير من الجهد المبذول للتحقق من تأثير تغييرات التعليمات البرمجية على الجودة.