الحجم يفوق كل شيء: وكيل ذكاء اصطناعي يحقق أرقامًا قياسية في swebench-verified

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-01-08

حققت شركة CodeStory نتائج متقدمة في معيار swebench-verified، حيث قامت بحل 62.2٪ من المشكلات من خلال الاستدلال الضخم في وقت الاختبار. لقد استخدموا نموذج اللغة الكبير Sonnet 3.5 ومجموعة أدوات بسيطة، وتخلوا عن إطار عمل MCTS الأولي لصالح القياس. من خلال تشغيل العديد من الوكلاء عبر أجهزة افتراضية متعددة وحسابات Anthropic، أثبتوا قوة الحجم في حل مشاكل هندسة البرمجيات المعقدة، حتى بالنسبة للفرق الصغيرة. هذا يعزز "الدرس المرير" القائل بأن الحجم يتفوق على كل شيء، مما يوفر نموذجًا جديدًا للذكاء الاصطناعي في هندسة البرمجيات.

التطوير