اختبار عشوائية نماذج اللغات الكبيرة يكشف عن تحيز غير متوقع

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-04-30

أجرى هذا الاختبار اختبارًا لعشوائية العديد من نماذج اللغات الكبيرة (LLMs) من OpenAI و Anthropic. من خلال جعل النماذج تقذف عملة معدنية وتتنبأ بأرقام عشوائية بين 0 و 10، اكتشف الباحثون تحيزًا كبيرًا في نتائجها، مما يكشف أنها ليست عشوائية حقًا. على سبيل المثال، في تجربة رمي العملة، أظهرت جميع النماذج تفضيلًا لـ "صورة الوجه"، حيث أظهر GPT-o1 التحيز الأكثر تطرفًا بنسبة 49٪. في التنبؤ بالأرقام الزوجية/الفردية، فضلت معظم النماذج الأرقام الفردية، حيث أظهر Claude 3.7 Sonnet أقوى تحيز بنسبة 47٪. تُبرز النتائج أن حتى نماذج LLMs المتقدمة قد تُظهر أنماطًا غير متوقعة تتأثر بتوزيعات بيانات التدريب الخاصة بها.