الحجم يفوق كل شيء: وكيل ذكاء اصطناعي يحقق أرقامًا قياسية في swebench-verified
2025-01-08
حققت شركة CodeStory نتائج متقدمة في معيار swebench-verified، حيث قامت بحل 62.2٪ من المشكلات من خلال الاستدلال الضخم في وقت الاختبار. لقد استخدموا نموذج اللغة الكبير Sonnet 3.5 ومجموعة أدوات بسيطة، وتخلوا عن إطار عمل MCTS الأولي لصالح القياس. من خلال تشغيل العديد من الوكلاء عبر أجهزة افتراضية متعددة وحسابات Anthropic، أثبتوا قوة الحجم في حل مشاكل هندسة البرمجيات المعقدة، حتى بالنسبة للفرق الصغيرة. هذا يعزز "الدرس المرير" القائل بأن الحجم يتفوق على كل شيء، مما يوفر نموذجًا جديدًا للذكاء الاصطناعي في هندسة البرمجيات.
(aide.dev)
التطوير