تحسين ضبط نماذج اللغة الكبيرة من خلال عملية اختيار البيانات التكراريّة
2025-08-08
حسّن الباحثون أداء نماذج اللغة الكبيرة (LLMs) بشكل ملحوظ من خلال عملية اختيار البيانات التكراريّة لبيانات التدريب الخاصة بها. وشملت التجارب نموذجين من نماذج اللغة الكبيرة بأحجام مختلفة (Gemini Nano-1 و Nano-2) على مهام ذات تعقيد مختلف، باستخدام حوالي 100000 تعليق من مصادر متعددة، عانت في البداية من اختلال شديد في التوزيع الطبقي (95% حميدة). من خلال عملية اختيار البيانات التكراريّة من قبل الخبراء وضبط النموذج الدقيق، تحسن الأداء بشكل كبير. وقد وصلت النماذج إلى حوالي 40% من الأمثلة الإيجابية ومعامل كابا لكوهين يبلغ حوالي 0.81 (تعقيد منخفض) و 0.78 (تعقيد مرتفع)، واقتربت من أداء الخبراء، مما يبرز الدور الحاسم لبيانات عالية الجودة في تدريب نماذج اللغة الكبيرة.