إمتحان البشرية الأخير: معيار جديد للذكاء الاصطناعي

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-01-23

نشرت Scale AI ومركز سلامة الذكاء الاصطناعي (CAIS) نتائج "إمتحان البشرية الأخير"، وهو مقياس جديد صمم لاختبار حدود معرفة الذكاء الاصطناعي. مع أكثر من 3000 سؤال على مستوى الخبراء في مجالات متنوعة، كشف الامتحان أن حتى أكثر نماذج الذكاء الاصطناعي تطوراً (مثل GPT-4 وClaude 3.5 وGemini 1.5) أجابت بشكل صحيح على أقل من 10٪ من الأسئلة. وهذا يبرز الثغرات الكبيرة في قدرات التفكير المعقد. ويعالج المقياس مشكلة "تشبع المقاييس"، حيث تتفوق النماذج في الاختبارات الموجودة ولكنها تواجه صعوبة مع المشاكل الجديدة. وسيتم نشر مجموعة البيانات علنًا لدفع البحث وتطوير الذكاء الاصطناعي، مما يوفر رؤى قيّمة حول الحالة الراهنة والاتجاه المستقبلي للذكاء الاصطناعي.