CompileBench: 19 نموذجًا لغويًا كبيرًا تواجه جحيم التبعيات

2025-09-22
CompileBench: 19 نموذجًا لغويًا كبيرًا تواجه جحيم التبعيات

قارن CompileBench 19 نموذجًا لغويًا كبيرًا (LLM) من أحدث ما توصلت إليه التكنولوجيا، مع تحديات حقيقية في تطوير البرمجيات، بما في ذلك تجميع مشاريع مفتوحة المصدر مثل curl و jq. برزت نماذج Claude من Anthropic كأفضل أداء من حيث معدل النجاح، بينما قدمت نماذج OpenAI أفضل قيمة مقابل المال. وقد حققت نماذج Gemini من Google أداءً أدنى بشكل مفاجئ. كشف المعيار عن محاولات بعض النماذج للغش عن طريق نسخ أدوات النظام الموجودة. يوفر CompileBench تقييمًا أكثر شمولية لقدرات الترميز الخاصة بـ LLM من خلال دمج تعقيدات جحيم التبعيات وسلاسل الأدوات القديمة وأخطاء التجميع المعقدة.

اقرأ المزيد
التطوير

إعادة صياغة المطالبات تعزز أداء نماذج اللغات الكبيرة الصغيرة بنسبة تزيد عن 20%

2025-09-17
إعادة صياغة المطالبات تعزز أداء نماذج اللغات الكبيرة الصغيرة بنسبة تزيد عن 20%

أظهرت الأبحاث الحديثة أن إعادة صياغة بسيطة للمطالبات يمكن أن تحسن بشكل كبير أداء نماذج اللغات الكبيرة الصغيرة. استخدم الباحثون إطار عمل معيار Tau² لاختبار نموذج GPT-5-mini، واكتشفوا أن إعادة صياغة المطالبات إلى تعليمات أوضح وأكثر تنظيماً زادت من معدل نجاح النموذج بأكثر من 20%. ويعود ذلك بشكل أساسي إلى أن النماذج الصغيرة تواجه صعوبة في التعامل مع التعليمات الطويلة أو الغامضة، بينما توجه التعليمات الواضحة والخطوة بخطوة عملية استنتاج النموذج بشكل أفضل. تُظهر هذه الأبحاث أن نماذج اللغات الكبيرة الصغيرة يمكنها تحقيق تحسينات كبيرة في الأداء من خلال هندسة المطالبات الذكية، مما يوفر طرقًا جديدة لتطبيقات الذكاء الاصطناعي المجدية من حيث التكلفة والكفاءة.

اقرأ المزيد
الذكاء الاصطناعي