Ajuste fino de GPT-2 para la generación de sentimiento positivo usando RLHF
Este proyecto proporciona una implementación de referencia para el ajuste fino de un modelo GPT-2 preentrenado para generar frases que expresen un sentimiento positivo utilizando el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF). El proceso consta de tres pasos: 1. Ajuste fino supervisado (SFT): Ajuste fino de GPT-2 en el conjunto de datos stanfordnlp/sst2; 2. Entrenamiento del modelo de recompensa: Entrenamiento de un modelo GPT-2 con una cabeza de recompensa para predecir el sentimiento; 3. Aprendizaje por refuerzo mediante la optimización de políticas proximales (PPO): Optimización del modelo SFT para generar frases que el modelo de recompensa evalúa positivamente. Estos tres pasos se implementan en tres notebooks de Jupyter, lo que permite un enfoque paso a paso. Se necesita un token de acceso de Hugging Face para descargar el modelo GPT-2 preentrenado.