تحسين ضبط نماذج اللغة الكبيرة من خلال عملية اختيار البيانات التكراريّة

2025-08-08
تحسين ضبط نماذج اللغة الكبيرة من خلال عملية اختيار البيانات التكراريّة

حسّن الباحثون أداء نماذج اللغة الكبيرة (LLMs) بشكل ملحوظ من خلال عملية اختيار البيانات التكراريّة لبيانات التدريب الخاصة بها. وشملت التجارب نموذجين من نماذج اللغة الكبيرة بأحجام مختلفة (Gemini Nano-1 و Nano-2) على مهام ذات تعقيد مختلف، باستخدام حوالي 100000 تعليق من مصادر متعددة، عانت في البداية من اختلال شديد في التوزيع الطبقي (95% حميدة). من خلال عملية اختيار البيانات التكراريّة من قبل الخبراء وضبط النموذج الدقيق، تحسن الأداء بشكل كبير. وقد وصلت النماذج إلى حوالي 40% من الأمثلة الإيجابية ومعامل كابا لكوهين يبلغ حوالي 0.81 (تعقيد منخفض) و 0.78 (تعقيد مرتفع)، واقتربت من أداء الخبراء، مما يبرز الدور الحاسم لبيانات عالية الجودة في تدريب نماذج اللغة الكبيرة.