معيار نماذج اللغة الكبيرة: تحليل السعر مقابل الأداء
2025-06-05
يُقيّم هذا التقرير نماذج اللغة الكبيرة في مجالات متعددة، بما في ذلك المنطق، والعلوم، والرياضيات، وإنشاء التعليمات البرمجية، والقدرات متعددة اللغات. تُظهر النتائج اختلافات كبيرة في الأداء عبر المهام، مع أداء قوي في المنطق العلمي والرياضي، لكن أداءً أضعف نسبيًا في إنشاء التعليمات البرمجية ومعالجة السياقات الطويلة. كما يحلل التقرير استراتيجيات التسعير ويوضح أن أداء النموذج لا يتناسب طرديًا مع السعر.