نماذج رؤية اللغة: ثقة عمياء، أخطاء خطيرة

2025-06-03

تتمتع نماذج رؤية اللغة (VLMs) المتطورة بدقة 100% في الصور القياسية (مثل عدّ خطوط شعار أديداس). ومع ذلك، تكشف دراسة جديدة عن فشلها الكارثي في الصور المعدّلة بشكل طفيف - حيث تنخفض الدقة إلى حوالي 17%. وبدلاً من التحليل البصري، تعتمد VLMs على المعرفة المُحفظة، مُظهِرةً تحيزًا قويًا للتأكيد. يُشكّل هذا العيب مخاطر كبيرة في التطبيقات عالية المخاطر مثل التصوير الطبي والمركبات الذاتية القيادة. تُبرز هذه الدراسة الحاجة الملحة إلى نماذج وأساليب تقييم أكثر قوة تُعطى الأولوية للتفكير البصري الحقيقي بدلاً من مطابقة الأنماط.

الذكاء الاصطناعي نماذج رؤية اللغة