Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2025-03-06

研究人员使用强化学习技术，成功训练了更小、更经济的开源语言模型，在“时间线索”推理游戏中超越了DeepSeek R1、OpenAI o1、o3-mini等模型，性能逼近Anthropic Sonnet 3.7，且推理成本降低百倍以上。他们通过精心设计的任务和超参数，并利用Group Relative Policy Optimization (GRPO)算法和torchtune库进行训练，取得了显著成果。这项研究表明，强化学习能有效地训练开源模型解决复杂的逻辑推理问题，且少量数据即可获得显著提升。

使用强化学习和4.8美元的GPU时间寻找最佳HN帖子（RLHF第一部分）

2024-10-29

本文作者使用强化学习和HN帖子数据，训练了一个奖励模型来预测HN帖子的点赞数。作者首先收集了所有HN帖子和评论数据，并选择了2016年后的纯文本帖子进行分析，使用帖子的点赞数作为奖励信号。然后，作者使用Llama 3.1 8B模型进行训练，并将帖子标题、作者、日期和内容作为输入特征。最终模型的均方根误差为1.11，意味着预测得分平均偏离实际值3倍左右。作者认为这种偏差可能是由于帖子能否登上HN首页的随机性导致的。最后，作者展示了模型预测得分最高的帖子，以及模型认为应该成功但实际点赞数为零的帖子。

廉价推理模型超越巨头：利用强化学习攻克逻辑难题

使用强化学习和4.8美元的GPU时间寻找最佳HN帖子（RLHF第一部分）