انفجار الأبحاث حول تقييم نماذج اللغات الكبيرة في توليد التعليمات البرمجية

2025-02-11
انفجار الأبحاث حول تقييم نماذج اللغات الكبيرة في توليد التعليمات البرمجية

تركز سلسلة من الأوراق البحثية الحديثة على موقع arXiv على تقييم نماذج اللغات الكبيرة (LLMs) في توليد التعليمات البرمجية. تغطي هذه الأوراق جوانب متعددة، بما في ذلك حل نماذج LLMs للمشكلات الواقعية على GitHub، وتوليد التعليمات البرمجية ذاتية الاستدعاء، واستخدام واجهات برمجة التطبيقات (APIs)، وتحليل الاستقرار، والتقييمات على مدار دورة حياة تطوير البرامج بأكملها. طور الباحثون معايير مرجعية متنوعة مثل SWE-bench و HumanEval Pro و SEAL و DevEval، بالإضافة إلى مقاييس مقابلة، بهدف إجراء تقييم شامل لقدرات توليد التعليمات البرمجية في نماذج LLMs ودفع التقدم في هذا المجال.

اقرأ المزيد