Feinabstimmung von GPT-2 zur Generierung positiver Gefühle mit RLHF

2025-07-06
Feinabstimmung von GPT-2 zur Generierung positiver Gefühle mit RLHF

Dieses Projekt bietet eine Referenzimplementierung für die Feinabstimmung eines vortrainierten GPT-2-Modells, um Sätze zu generieren, die positive Gefühle ausdrücken, mithilfe von Reinforcement Learning from Human Feedback (RLHF). Der Prozess umfasst drei Schritte: 1. Überwachtes Feintuning (SFT): Feintuning von GPT-2 auf dem Datensatz stanfordnlp/sst2; 2. Training des Belohnungsmodells: Training eines GPT-2-Modells mit einem Belohnungskopf, um das Gefühl vorherzusagen; 3. Reinforcement Learning via Proximal Policy Optimization (PPO): Optimierung des SFT-Modells, um Sätze zu generieren, die vom Belohnungsmodell positiv bewertet werden. Diese drei Schritte werden in drei Jupyter Notebooks implementiert, was einen schrittweisen Ansatz ermöglicht. Ein Hugging Face-Zugriffstoken ist erforderlich, um das vortrainierte GPT-2-Modell herunterzuladen.