廉价推理模型超越巨头:利用强化学习攻克逻辑难题
2025-03-06

研究人员使用强化学习技术,成功训练了更小、更经济的开源语言模型,在“时间线索”推理游戏中超越了DeepSeek R1、OpenAI o1、o3-mini等模型,性能逼近Anthropic Sonnet 3.7,且推理成本降低百倍以上。他们通过精心设计的任务和超参数,并利用Group Relative Policy Optimization (GRPO)算法和torchtune库进行训练,取得了显著成果。这项研究表明,强化学习能有效地训练开源模型解决复杂的逻辑推理问题,且少量数据即可获得显著提升。
阅读更多
AI