SWE-Bench Pro: معيار اختبار صعب لتقييم نماذج اللغات الكبيرة في هندسة البرمجيات

2025-09-22
SWE-Bench Pro: معيار اختبار صعب لتقييم نماذج اللغات الكبيرة في هندسة البرمجيات

SWE-Bench Pro هو معيار اختبار جديد لتقييم نماذج اللغات الكبيرة (LLMs) والوكلاء في مهام هندسة البرمجيات طويلة المدى. بالنظر إلى قاعدة بيانات رمزية ومشكلة، فإن المهمة الموكلة إلى النموذج هي إنشاء تصحيح لحل المشكلة الموصوفة. مستوحى من SWE-Bench، يستخدم Docker و Modal لإجراء تقييمات قابلة للتكرار، ويتطلب من المستخدمين إعداد بيئة Docker وبيانات اعتماد Modal لتشغيل البرنامج النصي للتقييم.