تحسين ضبط نماذج اللغة الكبيرة من خلال عملية اختيار البيانات التكراريّة

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-08-08

حسّن الباحثون أداء نماذج اللغة الكبيرة (LLMs) بشكل ملحوظ من خلال عملية اختيار البيانات التكراريّة لبيانات التدريب الخاصة بها. وشملت التجارب نموذجين من نماذج اللغة الكبيرة بأحجام مختلفة (Gemini Nano-1 و Nano-2) على مهام ذات تعقيد مختلف، باستخدام حوالي 100000 تعليق من مصادر متعددة، عانت في البداية من اختلال شديد في التوزيع الطبقي (95% حميدة). من خلال عملية اختيار البيانات التكراريّة من قبل الخبراء وضبط النموذج الدقيق، تحسن الأداء بشكل كبير. وقد وصلت النماذج إلى حوالي 40% من الأمثلة الإيجابية ومعامل كابا لكوهين يبلغ حوالي 0.81 (تعقيد منخفض) و 0.78 (تعقيد مرتفع)، واقتربت من أداء الخبراء، مما يبرز الدور الحاسم لبيانات عالية الجودة في تدريب نماذج اللغة الكبيرة.