إمتحان البشرية الأخير: معيار جديد للذكاء الاصطناعي

2025-01-23
إمتحان البشرية الأخير: معيار جديد للذكاء الاصطناعي

نشرت Scale AI ومركز سلامة الذكاء الاصطناعي (CAIS) نتائج "إمتحان البشرية الأخير"، وهو مقياس جديد صمم لاختبار حدود معرفة الذكاء الاصطناعي. مع أكثر من 3000 سؤال على مستوى الخبراء في مجالات متنوعة، كشف الامتحان أن حتى أكثر نماذج الذكاء الاصطناعي تطوراً (مثل GPT-4 وClaude 3.5 وGemini 1.5) أجابت بشكل صحيح على أقل من 10٪ من الأسئلة. وهذا يبرز الثغرات الكبيرة في قدرات التفكير المعقد. ويعالج المقياس مشكلة "تشبع المقاييس"، حيث تتفوق النماذج في الاختبارات الموجودة ولكنها تواجه صعوبة مع المشاكل الجديدة. وسيتم نشر مجموعة البيانات علنًا لدفع البحث وتطوير الذكاء الاصطناعي، مما يوفر رؤى قيّمة حول الحالة الراهنة والاتجاه المستقبلي للذكاء الاصطناعي.

الذكاء الاصطناعي مقياس الذكاء الاصطناعي