المعابد الثلاثة لتدريب نماذج اللغات الكبيرة: ما قبل التدريب، والضبط الدقيق، وتعلم التعزيز مع التغذية الراجعة البشرية

2025-06-10
المعابد الثلاثة لتدريب نماذج اللغات الكبيرة: ما قبل التدريب، والضبط الدقيق، وتعلم التعزيز مع التغذية الراجعة البشرية

في محمية جبلية خفية في ليكسونيا، يخضع الكُتّاب القدماء لتدريب في هيكل من ثلاثة أجزاء: قاعة الأصول، وغرفة التعليمات، وساحة التعزيز. تتضمن قاعة الأصول التدريب المسبق، حيث يقرأ الكُتّاب كميات هائلة من النصوص لتعلم أنماط اللغة. وغرفة التعليمات هي المكان الذي يحدث فيه الضبط الدقيق، باستخدام نصوص مختارة لإرشاد الكُتّاب إلى نتائج أفضل. وتستخدم ساحة التعزيز تقنية تعلم التعزيز مع التغذية الراجعة البشرية (RLHF)، حيث يقوم قضاة بشريون بتصنيف إجابات الكُتّاب، ومكافأة الإجابات الجيدة ومعاقبة الإجابات السيئة. كما يمكن تعديل الكُتّاب النخبة بشكل دقيق من خلال لفائف LoRA ومُكيّفات، مما يُعدّل الاستجابات دون إعادة تدريب النموذج بالكامل. يُمثّل هذا الهيكل ذو الأجنحة الثلاثة العملية الكاملة لتدريب نماذج اللغات الكبيرة.

الذكاء الاصطناعي التدريب المسبق