انحناء منحنيات المعايرة في نماذج اللغات الكبيرة: إشارة الثقة المفقودة
يمكن أن تُؤدي عمليات ما بعد التدريب لنماذج اللغات الكبيرة (LLMs) إلى تحيز سلوكها عند مواجهة محتوى ينتهك إرشادات السلامة. يستخدم هذا المقال، باستخدام GPT-4 من OpenAI كمثال، استكشاف فشل معايرة النموذج بعد التدريب، مما يؤدي إلى ثقة مفرطة حتى عندما يكون النموذج خاطئًا. هذا يؤدي إلى إيجابيات خاطئة كبيرة في أنظمة إدارة المحتوى، مما يزيد من عبء عمل المراجعة البشرية. وقد وجد المؤلفون أن الترقية من GPT-4o إلى GPT-4.1-mini أدت إلى اختفاء إشارة الثقة، حيث باءت محاولات استعادتها بالفشل. ويرجع ذلك على الأرجح إلى فقدان المعلومات أثناء تقطير النموذج. للتغلب على ذلك، قاموا بتطبيق ضمانات بديلة، مثل طلب تفسيرات مفصلة للسياسات والاقتباسات، وأنظمة الترشيح للكشف عن المخرجات الزائفة. يبرز المقال أن ترقيات النموذج ليست مجرد زيادات في الأداء؛ بل إنها تسبب تحولات توزيعية تتطلب من المهندسين إعادة الكشف عن عدم يقين النموذج، مما يخفف من المخاطر المرتبطة بذلك.