نماذج اللغات الكبيرة تفشل في تحديد الخطوط: مقياس أداء حي

2025-08-04
نماذج اللغات الكبيرة تفشل في تحديد الخطوط: مقياس أداء حي

قام مطور بقياس أداء نموذجي لغة GPT-4 و Gemini في مقياس أداء حيّ ومتجدد باستمرار لخطوط غير مُحددة من منتدى DaFont. على الرغم من توفير سياق مثل الصور والعناوين والوصف، إلا أن كلا النموذجين قد حققا أداءً سيئًا للغاية. يبرز هذا الأمر القيود حتى في مهام تصنيف الصور البسيطة على ما يبدو، مما يشير إلى أن نماذج اللغات الكبيرة لا تزال بعيدة كل البعد عن أن تكون حلاً عالميًا. يستخدم المشروع نصوص Python لجمع البيانات، و GitHub Actions لأتمتة العملية، و JSON للتخزين، و Observable لإنشاء لوحة تحكم ديناميكية.

اقرأ المزيد
الذكاء الاصطناعي تحديد الخطوط