ChemBench: مقياس أداء لأنظمة معالجة اللغة الكبيرة في الكيمياء

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-06-16

ChemBench هي مجموعة بيانات جديدة للمعيار المرجعي مصممة لتقييم أداء نماذج اللغة الكبيرة (LLMs) في مجال الكيمياء. وتتضمن مجموعة متنوعة من الأسئلة الكيميائية التي تغطي العديد من المجالات الفرعية، مصنفة حسب الصعوبة. وتُظهر النتائج أن نماذج LLMs الرائدة تتفوق على الخبراء البشر بشكل عام، ولكن لا تزال هناك قيود في الأسئلة التي تتطلب معرفة مكثفة والتفكير الكيميائي. ويهدف ChemBench إلى تطوير نماذج LLMs الكيميائية وتوفير أدوات لتقييم النماذج بشكل أكثر قوة.

الذكاء الاصطناعي