أداء نماذج اللغات الكبيرة في مسابقة Advent of Code لعام 2024: مفاجأة

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2024-12-30

تتناول هذه المشاركة تجربة اختبار العديد من نماذج اللغات الكبيرة (LLMs) في تحدي Advent of Code لعام 2024. ومما أثار الدهشة أن أداء نماذج LLMs كان أسوأ من المتوقع، بل وتجاوز أداء الكاتب نفسه. تم استخدام إطار عمل بسيط، حيث تم تزويد النماذج بوصف كامل للمشكلة، مع طلب الحصول على رمز Python قابل للتنفيذ. وأظهرت النتائج حدوث حالات تجاوز وقت التشغيل واستثناءات متكررة، مما يشير إلى تميز نماذج LLMs في حل المشكلات المألوفة، لكنها تواجه صعوبات مع المشكلات الجديدة. وقد ينبع هذا القصور من الاعتماد على قوالب البرامج، أو الموارد الحسابية غير الكافية، أو المطالبات غير المثلى. وتسلط التجربة الضوء على Advent of Code كمعيار محتمل لتقييم وكلاء البرمجة.