التقييمات ليست كافية: قيود تقييم نماذج اللغة الكبيرة

2025-03-03

تنتقد هذه المقالة الممارسة الشائعة المتمثلة في الاعتماد على التقييمات لضمان أداء برامج نماذج اللغة الكبيرة (LLM). على الرغم من الاعتراف بدور التقييمات في مقارنة نماذج القاعدة المختلفة واختبارات الوحدة، إلا أن المؤلف يبرز العديد من العيوب الحرجة في تطبيقها في العالم الحقيقي: صعوبة إنشاء مجموعات بيانات اختبار شاملة؛ قيود طرق التسجيل الآلية؛ عدم كفاية تقييم نموذج القاعدة فقط دون مراعاة أداء النظام بأكمله؛ وإخفاء الأخطاء الخطيرة عن طريق حساب متوسط نتائج التقييم. يُجادل المؤلف بأن التقييمات لا تستطيع حل مشكلة "الذيل الطويل" المتأصلة في نماذج LLM، حيث تظهر دائمًا حالات غير متوقعة في الإنتاج. في النهاية، تدعو المقالة إلى تغيير في ممارسات تطوير نماذج LLM، وتدعو إلى التحول من الاعتماد الحصري على التقييمات إلى إعطاء الأولوية لاختبارات المستخدمين واختبارات النظام الأكثر شمولاً.

الذكاء الاصطناعي