SWE-bench: هل يمكن لأنظمة اللغات الكبيرة حل مشكلات GitHub الواقعية؟
2025-01-08
SWE-bench هي مجموعة بيانات قياسية تقيم قدرة نماذج اللغات الكبيرة على حل مشكلات GitHub الواقعية تلقائيًا. قام الباحثون بتجميع 2294 زوجًا من طلبات السحب وإصدارات المشكلات من 12 مستودعًا شائعًا بلغة Python، مع التحقق من صحة الحلول باستخدام اختبارات الوحدة. يُظهر أحدث تصنيف نماذجًا مختلفة تحقق معدلات نجاح متفاوتة، حيث تتجاوز بعضها نسبة 50% من الحلول. يوفر المشروع موارد، بما في ذلك نسخة مبسطة ونماذج مُدرّبة مسبقًا لتسهيل التقييم وإمكانية التكرار.
التطوير
إصلاح التعليمات البرمجية