Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

SWE-Bench Pro: معيار اختبار صعب لتقييم نماذج اللغات الكبيرة في هندسة البرمجيات

2025-09-22

SWE-Bench Pro هو معيار اختبار جديد لتقييم نماذج اللغات الكبيرة (LLMs) والوكلاء في مهام هندسة البرمجيات طويلة المدى. بالنظر إلى قاعدة بيانات رمزية ومشكلة، فإن المهمة الموكلة إلى النموذج هي إنشاء تصحيح لحل المشكلة الموصوفة. مستوحى من SWE-Bench، يستخدم Docker و Modal لإجراء تقييمات قابلة للتكرار، ويتطلب من المستخدمين إعداد بيئة Docker وبيانات اعتماد Modal لتشغيل البرنامج النصي للتقييم.

(github.com)

التطوير معيار الاختبار