Entrenamiento GRPO ligero: Sin Transformers, sin vLLM

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Entrenamiento GRPO ligero: Sin Transformers, sin vLLM

2025-04-13

Este proyecto implementa un framework de entrenamiento GRPO (Group Relative Policy Optimization) ligero, construido casi desde cero, dependiendo solo de tokenizadores y PyTorch. Mejora el algoritmo original eliminando la divergencia de KL e incorporando el filtro de episodios demasiado largos, mejorando la estabilidad del entrenamiento y el uso de la memoria de la GPU. El proyecto entrena el modelo Qwen2.5-3B-Instruct en la tarea CountDown, que requiere generar una expresión matemática para alcanzar un valor objetivo dado un conjunto de números. El modelo lo resuelve aprendiendo a generar razonamiento en cadena de pensamiento antes de la respuesta final, guiado por recompensas de formato y respuesta. Todo el proceso es sencillo y reproducible, ejecutándose en una sola GPU A40 con comandos mínimos.

(github.com)

Desarrollo

El nombramiento de un defensor antivacunas por Kennedy provoca indignación

Depurando una prueba inestable con `trace` de BCC