Ajustando Finamente o GPT-2 para Geração de Sentimento Positivo usando RLHF
Este projeto fornece uma implementação de referência para o ajuste fino de um modelo GPT-2 pré-treinado para gerar frases que expressam sentimento positivo usando Aprendizado por Reforço a partir de Feedback Humano (RLHF). O processo envolve três etapas: 1. Ajuste Fino Supervisionado (SFT): Ajuste fino do GPT-2 no conjunto de dados stanfordnlp/sst2; 2. Treinamento do Modelo de Recompensa: Treinamento de um modelo GPT-2 com uma cabeça de recompensa para prever o sentimento; 3. Aprendizado por Reforço via Proximal Policy Optimization (PPO): Otimização do modelo SFT para gerar frases que o modelo de recompensa avalia positivamente. Essas três etapas são implementadas em três notebooks Jupyter, permitindo uma abordagem passo a passo. Um token de acesso Hugging Face é necessário para baixar o modelo GPT-2 pré-treinado.