ChemBench: مقياس أداء لأنظمة معالجة اللغة الكبيرة في الكيمياء
2025-06-16
ChemBench هي مجموعة بيانات جديدة للمعيار المرجعي مصممة لتقييم أداء نماذج اللغة الكبيرة (LLMs) في مجال الكيمياء. وتتضمن مجموعة متنوعة من الأسئلة الكيميائية التي تغطي العديد من المجالات الفرعية، مصنفة حسب الصعوبة. وتُظهر النتائج أن نماذج LLMs الرائدة تتفوق على الخبراء البشر بشكل عام، ولكن لا تزال هناك قيود في الأسئلة التي تتطلب معرفة مكثفة والتفكير الكيميائي. ويهدف ChemBench إلى تطوير نماذج LLMs الكيميائية وتوفير أدوات لتقييم النماذج بشكل أكثر قوة.
الذكاء الاصطناعي