Ajustement fin de GPT-2 pour la génération de sentiments positifs utilisant RLHF

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-07-06

Ce projet fournit une implémentation de référence pour l'ajustement fin d'un modèle GPT-2 pré-entraîné afin de générer des phrases exprimant un sentiment positif en utilisant l'apprentissage par renforcement à partir de feedbacks humains (RLHF). Le processus comprend trois étapes : 1. Ajustement fin supervisé (SFT) : Ajustement fin de GPT-2 sur l'ensemble de données stanfordnlp/sst2 ; 2. Entraînement du modèle de récompense : Entraînement d'un modèle GPT-2 avec une tête de récompense pour prédire le sentiment ; 3. Apprentissage par renforcement via l'optimisation de politique proximale (PPO) : Optimisation du modèle SFT pour générer des phrases que le modèle de récompense évalue positivement. Ces trois étapes sont implémentées dans trois notebooks Jupyter, permettant une approche étape par étape. Un jeton d'accès Hugging Face est nécessaire pour télécharger le modèle GPT-2 pré-entraîné.