搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

使用强化学习和4.8美元的GPU时间寻找最佳HN帖子(RLHF第一部分) (openpipe.ai)

本文作者使用强化学习和HN帖子数据,训练了一个奖励模型来预测HN帖子的点赞数。作者首先收集了所有HN帖子和评论数据,并选择了2016年后的纯文本帖子进行分析,使用帖子的点赞数作为奖励信号。然后,作者使用Llama 3.1 8B模型进行训练,并将帖子标题、作者、日期和内容作为输入特征。最终模型的均方根误差为1.11,意味着预测得分平均偏离实际值3倍左右。作者认为这种偏差可能是由于帖子能否登上HN首页的随机性导致的。最后,作者展示了模型预测得分最高的帖子,以及模型认为应该成功但实际点赞数为零的帖子。