使用强化学习和4.8美元的GPU时间寻找最佳HN帖子(RLHF第一部分)

2024-10-29

本文作者使用强化学习和HN帖子数据,训练了一个奖励模型来预测HN帖子的点赞数。作者首先收集了所有HN帖子和评论数据,并选择了2016年后的纯文本帖子进行分析,使用帖子的点赞数作为奖励信号。然后,作者使用Llama 3.1 8B模型进行训练,并将帖子标题、作者、日期和内容作为输入特征。最终模型的均方根误差为1.11,意味着预测得分平均偏离实际值3倍左右。作者认为这种偏差可能是由于帖子能否登上HN首页的随机性导致的。最后,作者展示了模型预测得分最高的帖子,以及模型认为应该成功但实际点赞数为零的帖子。

阅读更多
未分类 奖励模型