انحناء منحنيات المعايرة في نماذج اللغات الكبيرة: إشارة الثقة المفقودة

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-05-07

يمكن أن تُؤدي عمليات ما بعد التدريب لنماذج اللغات الكبيرة (LLMs) إلى تحيز سلوكها عند مواجهة محتوى ينتهك إرشادات السلامة. يستخدم هذا المقال، باستخدام GPT-4 من OpenAI كمثال، استكشاف فشل معايرة النموذج بعد التدريب، مما يؤدي إلى ثقة مفرطة حتى عندما يكون النموذج خاطئًا. هذا يؤدي إلى إيجابيات خاطئة كبيرة في أنظمة إدارة المحتوى، مما يزيد من عبء عمل المراجعة البشرية. وقد وجد المؤلفون أن الترقية من GPT-4o إلى GPT-4.1-mini أدت إلى اختفاء إشارة الثقة، حيث باءت محاولات استعادتها بالفشل. ويرجع ذلك على الأرجح إلى فقدان المعلومات أثناء تقطير النموذج. للتغلب على ذلك، قاموا بتطبيق ضمانات بديلة، مثل طلب تفسيرات مفصلة للسياسات والاقتباسات، وأنظمة الترشيح للكشف عن المخرجات الزائفة. يبرز المقال أن ترقيات النموذج ليست مجرد زيادات في الأداء؛ بل إنها تسبب تحولات توزيعية تتطلب من المهندسين إعادة الكشف عن عدم يقين النموذج، مما يخفف من المخاطر المرتبطة بذلك.