تقييم قدرات توليد التعليمات البرمجية لأنظمة اللغات الكبيرة (LLMs): تقديم MultiCodeBench

2024-12-30
تقييم قدرات توليد التعليمات البرمجية لأنظمة اللغات الكبيرة (LLMs): تقديم MultiCodeBench

أصبحت مساعدات البرمجة التي تعمل بالذكاء الاصطناعي والتي تعتمد على نماذج اللغات الكبيرة (LLMs) الخاصة بالتعليمات البرمجية أكثر شيوعًا، مما أدى إلى زيادة كبيرة في إنتاجية المطورين. ومع ذلك، تركز مقاييس الأداء الحالية لتوليد التعليمات البرمجية بشكل أساسي على السيناريوهات العامة، تاركة أداء أنظمة LLMs في مجالات التطبيقات المحددة إلى حد كبير غير معروف. تقدم هذه الورقة MultiCodeBench، وهو مقياس أداء جديد يتكون من 2400 مهمة برمجة في 12 مجالًا شائعًا لتنمية البرامج و15 لغة برمجة. تكشف التجارب على أحد عشر نظامًا رئيسيًا من أنظمة LLMs عن أدائها في توليد التعليمات البرمجية عبر مختلف المجالات، مما يوفر رؤى عملية للمطورين في اختيار أنظمة LLMs وإرشادات لمطوري النماذج لتحسين قدرات توليد التعليمات البرمجية المحددة حسب المجال.

التطوير مقياس الأداء