SWE-bench: هل يمكن لأنظمة اللغات الكبيرة حل مشكلات GitHub الواقعية؟

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

SWE-bench: هل يمكن لأنظمة اللغات الكبيرة حل مشكلات GitHub الواقعية؟

2025-01-08

SWE-bench هي مجموعة بيانات قياسية تقيم قدرة نماذج اللغات الكبيرة على حل مشكلات GitHub الواقعية تلقائيًا. قام الباحثون بتجميع 2294 زوجًا من طلبات السحب وإصدارات المشكلات من 12 مستودعًا شائعًا بلغة Python، مع التحقق من صحة الحلول باستخدام اختبارات الوحدة. يُظهر أحدث تصنيف نماذجًا مختلفة تحقق معدلات نجاح متفاوتة، حيث تتجاوز بعضها نسبة 50% من الحلول. يوفر المشروع موارد، بما في ذلك نسخة مبسطة ونماذج مُدرّبة مسبقًا لتسهيل التقييم وإمكانية التكرار.

(www.swebench.com)

التطوير إصلاح التعليمات البرمجية

تأثير الترس: كيف يبني المهندسون سمعتهم في شركات التكنولوجيا الكبرى

حرائق لوس أنجلوس تجبر عشرات الآلاف على إخلاء منازلهم، ووكالة ناسا تغلق مختبرها للطاقة الدافعة