اختبار عشوائية نماذج اللغات الكبيرة يكشف عن تحيز غير متوقع

2025-04-30

أجرى هذا الاختبار اختبارًا لعشوائية العديد من نماذج اللغات الكبيرة (LLMs) من OpenAI و Anthropic. من خلال جعل النماذج تقذف عملة معدنية وتتنبأ بأرقام عشوائية بين 0 و 10، اكتشف الباحثون تحيزًا كبيرًا في نتائجها، مما يكشف أنها ليست عشوائية حقًا. على سبيل المثال، في تجربة رمي العملة، أظهرت جميع النماذج تفضيلًا لـ "صورة الوجه"، حيث أظهر GPT-o1 التحيز الأكثر تطرفًا بنسبة 49٪. في التنبؤ بالأرقام الزوجية/الفردية، فضلت معظم النماذج الأرقام الفردية، حيث أظهر Claude 3.7 Sonnet أقوى تحيز بنسبة 47٪. تُبرز النتائج أن حتى نماذج LLMs المتقدمة قد تُظهر أنماطًا غير متوقعة تتأثر بتوزيعات بيانات التدريب الخاصة بها.

الذكاء الاصطناعي العشوائية التحيز