Entrenamiento GRPO ligero: Sin Transformers, sin vLLM
Este proyecto implementa un framework de entrenamiento GRPO (Group Relative Policy Optimization) ligero, construido casi desde cero, dependiendo solo de tokenizadores y PyTorch. Mejora el algoritmo original eliminando la divergencia de KL e incorporando el filtro de episodios demasiado largos, mejorando la estabilidad del entrenamiento y el uso de la memoria de la GPU. El proyecto entrena el modelo Qwen2.5-3B-Instruct en la tarea CountDown, que requiere generar una expresión matemática para alcanzar un valor objetivo dado un conjunto de números. El modelo lo resuelve aprendiendo a generar razonamiento en cadena de pensamiento antes de la respuesta final, guiado por recompensas de formato y respuesta. Todo el proceso es sencillo y reproducible, ejecutándose en una sola GPU A40 con comandos mínimos.