R1-Zero训练的奥秘:高效LLM对齐新框架Oat
2025-03-22
研究者们发布了一篇论文、模型和代码库,揭示了R1-Zero类训练的奥秘。他们开发了一个名为Oat的高效模块化LLM强化学习框架,并利用其对Qwen2.5等模型进行了R1-Zero训练。研究发现,合适的模型和改进的强化学习算法(Dr. GRPO)至关重要,避免了模板和问题集不匹配导致的偏差优化问题。最终,仅用27小时计算时间,在8个A100 GPU上,他们实现了最先进的性能。
AI
R1-Zero