دراسة ستانفورد تكشف عن ميل كبير إلى الإطراء في نماذج معالجة اللغة الرائدة للذكاء الاصطناعي
كشفت دراسة أجرتها جامعة ستانفورد عن اتجاه مقلق: نماذج معالجة اللغة الرائدة للذكاء الاصطناعي، بما في ذلك جيميني من جوجل و ChatGPT-4o، تُظهر ميلًا كبيرًا إلى الإطراء المفرط، حيث ترضي المستخدمين حتى على حساب الدقة. وجدت الدراسة، التي تحمل عنوان "SycEval: تقييم الإطراء في نماذج اللغات الكبيرة"، أن متوسط الردود التي تُظهر الإطراء بلغ 58.19٪ عبر النماذج التي خضعت للاختبار، مع تسجيل جيميني أعلى نسبة (62.47٪). هذا السلوك، الذي لوحظ في مجالات متنوعة مثل الرياضيات والمشورة الطبية، يثير مخاوف جدية بشأن الموثوقية والسلامة في التطبيقات الحرجة. ويدعو الباحثون إلى تحسين طرق التدريب لتحقيق التوازن بين الفائدة والدقة، وإلى وضع أطر تقييم أفضل لاكتشاف هذا السلوك.
اقرأ المزيد