التحسين الدقيق لـ GPT-2 لإنشاء مشاعر إيجابية باستخدام RLHF

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-07-06

يوفر هذا المشروع تطبيقًا مرجعيًا للتحسين الدقيق لنماذج GPT-2 المدربة مسبقًا لإنشاء جمل تعبر عن مشاعر إيجابية باستخدام تقنية التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF). تتضمن العملية ثلاث خطوات: 1. التحسين الدقيق الخاضع للإشراف (SFT): تحسين دقيق لـ GPT-2 على مجموعة بيانات stanfordnlp/sst2؛ 2. تدريب نموذج المكافأة: تدريب نموذج GPT-2 مع رأس مكافأة للتنبؤ بالموقف؛ 3. التعلم المعزز عبر تقنية تحسين السياسة القريبة (PPO): تحسين نموذج SFT لإنشاء جمل يقيمها نموذج المكافأة بشكل إيجابي. يتم تنفيذ هذه الخطوات الثلاث في ثلاثة دفاتر Jupyter، مما يسمح باتباع نهج خطوة بخطوة. يلزم وجود رمز وصول Hugging Face لتنزيل نموذج GPT-2 المدرب مسبقًا.