轻量级GRPO训练:无需Transformer和vLLM
2025-04-13
本项目实现了轻量级的GRPO (Group Relative Policy Optimization) 训练框架,几乎从零开始构建,仅依赖分词器和PyTorch。它改进了原算法,去除了KL散度,并加入了超长episode过滤机制,提升了训练稳定性和GPU内存利用率。该项目使用Qwen2.5-3B-Instruct模型在CountDown任务上进行训练,该任务要求模型根据给定的数字生成数学表达式以达到目标值。模型通过学习在答案前生成链式思维推理来解决该问题,并通过格式奖励和答案奖励来进行强化学习。整个过程简单易复现,只需几行命令即可在单A40 GPU上运行。
开发
GRPO