用强化学习和下一个token预测,在网络规模上训练推理模型

2025-07-13
用强化学习和下一个token预测,在网络规模上训练推理模型

作者认为,强化学习(RL)是构建前沿AI模型的下一种训练技术。当前同时扩展多个环境的方法混乱且复杂。作者提出了一种新方法:利用RL对网络数据进行下一个token预测,从而从通用的网络数据中学习推理,而不是仅仅从数学和代码中学习。这种方法将RL与下一个token预测相结合,在网络规模的数据集上进行训练,有望克服当前RL训练数据有限的瓶颈,从而构建更强大的推理模型。

AI