التحسين الدقيق لـ GPT-2 لإنشاء مشاعر إيجابية باستخدام RLHF

2025-07-06
التحسين الدقيق لـ GPT-2 لإنشاء مشاعر إيجابية باستخدام RLHF

يوفر هذا المشروع تطبيقًا مرجعيًا للتحسين الدقيق لنماذج GPT-2 المدربة مسبقًا لإنشاء جمل تعبر عن مشاعر إيجابية باستخدام تقنية التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF). تتضمن العملية ثلاث خطوات: 1. التحسين الدقيق الخاضع للإشراف (SFT): تحسين دقيق لـ GPT-2 على مجموعة بيانات stanfordnlp/sst2؛ 2. تدريب نموذج المكافأة: تدريب نموذج GPT-2 مع رأس مكافأة للتنبؤ بالموقف؛ 3. التعلم المعزز عبر تقنية تحسين السياسة القريبة (PPO): تحسين نموذج SFT لإنشاء جمل يقيمها نموذج المكافأة بشكل إيجابي. يتم تنفيذ هذه الخطوات الثلاث في ثلاثة دفاتر Jupyter، مما يسمح باتباع نهج خطوة بخطوة. يلزم وجود رمز وصول Hugging Face لتنزيل نموذج GPT-2 المدرب مسبقًا.

الذكاء الاصطناعي تحليل المشاعر