廉价推理模型超越巨头:利用强化学习攻克逻辑难题

2025-03-06
廉价推理模型超越巨头:利用强化学习攻克逻辑难题

研究人员使用强化学习技术,成功训练了更小、更经济的开源语言模型,在“时间线索”推理游戏中超越了DeepSeek R1、OpenAI o1、o3-mini等模型,性能逼近Anthropic Sonnet 3.7,且推理成本降低百倍以上。他们通过精心设计的任务和超参数,并利用Group Relative Policy Optimization (GRPO)算法和torchtune库进行训练,取得了显著成果。这项研究表明,强化学习能有效地训练开源模型解决复杂的逻辑推理问题,且少量数据即可获得显著提升。

阅读更多
AI

使用强化学习和4.8美元的GPU时间寻找最佳HN帖子(RLHF第一部分)

2024-10-29
使用强化学习和4.8美元的GPU时间寻找最佳HN帖子(RLHF第一部分)

本文作者使用强化学习和HN帖子数据,训练了一个奖励模型来预测HN帖子的点赞数。作者首先收集了所有HN帖子和评论数据,并选择了2016年后的纯文本帖子进行分析,使用帖子的点赞数作为奖励信号。然后,作者使用Llama 3.1 8B模型进行训练,并将帖子标题、作者、日期和内容作为输入特征。最终模型的均方根误差为1.11,意味着预测得分平均偏离实际值3倍左右。作者认为这种偏差可能是由于帖子能否登上HN首页的随机性导致的。最后,作者展示了模型预测得分最高的帖子,以及模型认为应该成功但实际点赞数为零的帖子。

阅读更多
未分类 奖励模型