Llama 4 من Meta: فضيحة قياس الأداء تهز عالم الذكاء الاصطناعي
2025-04-13
لفتت عائلة نماذج اللغة الكبيرة Llama 4، التي أصدرتها Meta مؤخراً، وخاصةً نسخة Maverick، أنظار عالم الذكاء الاصطناعي بأدائها المذهل في اختبارات الأداء، متفوقة على نماذج مثل GPT-4o من OpenAI و Gemini 2.0 Flash من Google. ومع ذلك، سرعان ما ظهرت اختلافات بين نسخة اختبار الأداء والنسخة المتاحة للجمهور، مما أدى إلى اتهامات بالغش. اعترفت Meta باستخدام نسخة مُحسّنة خصيصاً لاختبار الأداء، وقد أضافت منذ ذلك الحين نسخة Llama 4 Maverick غير المعدلة إلى LMArena، مما أدى إلى انخفاض كبير في التصنيف. يسلط هذا الحادث الضوء على مشاكل الشفافية في اختبارات الأداء للنماذج الكبيرة، ويدعو إلى إعادة النظر في منهجيات تقييم النماذج.
الذكاء الاصطناعي