轻量级GRPO训练：无需Transformer和vLLM

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

轻量级GRPO训练：无需Transformer和vLLM

2025-04-13

本项目实现了轻量级的GRPO (Group Relative Policy Optimization) 训练框架，几乎从零开始构建，仅依赖分词器和PyTorch。它改进了原算法，去除了KL散度，并加入了超长episode过滤机制，提升了训练稳定性和GPU内存利用率。该项目使用Qwen2.5-3B-Instruct模型在CountDown任务上进行训练，该任务要求模型根据给定的数字生成数学表达式以达到目标值。模型通过学习在答案前生成链式思维推理来解决该问题，并通过格式奖励和答案奖励来进行强化学习。整个过程简单易复现，只需几行命令即可在单A40 GPU上运行。

(github.com)

开发 GRPO

疫苗反科学谬论：联邦研究任命引争议

使用BCC工具追踪Linux内核函数解决测试失败难题