使用强化学习和4.8美元的GPU时间寻找最佳HN帖子（RLHF第一部分）

使用强化学习和4.8美元的GPU时间寻找最佳HN帖子（RLHF第一部分） (openpipe.ai)

原文: Using Reinforcement Learning and $4.80 of GPU Time to Find the Best HN Post Ever (RLHF Part 1) - OpenPipe

本文作者使用强化学习和HN帖子数据，训练了一个奖励模型来预测HN帖子的点赞数。作者首先收集了所有HN帖子和评论数据，并选择了2016年后的纯文本帖子进行分析，使用帖子的点赞数作为奖励信号。然后，作者使用Llama 3.1 8B模型进行训练，并将帖子标题、作者、日期和内容作为输入特征。最终模型的均方根误差为1.11，意味着预测得分平均偏离实际值3倍左右。作者认为这种偏差可能是由于帖子能否登上HN首页的随机性导致的。最后，作者展示了模型预测得分最高的帖子，以及模型认为应该成功但实际点赞数为零的帖子。

奖励模型

上一篇: 为何马特·莱文如此稀少？

下一篇: 苹果正在扼杀 Swift

评论已经关闭！

返回首页