نماذج اللغات الكبيرة تفشل في التحقق من صحة الحقائق في العالم الحقيقي: انقسام واضح في القدرات

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-06-05

قام الكاتب باختبار العديد من نماذج اللغات الكبيرة (LLMs) في مهمة معقدة للتحقق من الحقائق في العالم الحقيقي تتعلق بالآثار طويلة المدى لأدوية اضطراب نقص الانتباه وفرط النشاط. كشفت النتائج عن فجوة كبيرة في الأداء: بعض نماذج LLMs استشهدت ولخصت بدقة وثائق من العالم الحقيقي، بينما عانت أخرى من "هلوسة الروابط" الشديدة و سوء فهم المصادر. يجادل الكاتب بأن أساليب اختبار LLMs الحالية مبسطة للغاية ولا تقيم بشكل كافٍ قدرتها على التعامل مع المعلومات المعقدة، داعياً إلى إيلاء المزيد من الاهتمام لهذه المشكلة الحرجة.