迈向复现 OpenAI o1 的一小步:Steiner 开源模型进展报告

2024-10-22

本文介绍了Steiner,一个基于强化学习训练的开源推理模型,旨在复现 OpenAI o1。Steiner 能够在推理过程中以自回归的方式探索多种推理路径,并在必要时自主验证或回溯。文章详细介绍了 Steiner 的数据合成方法、训练过程(包括持续预训练、监督微调和强化学习)、评估结果以及局限性。虽然 Steiner 在 GPQA-Diamond 数据集上取得了显著改进,但尚未复现 o1 的推理时间缩放能力。作者认为自动化评估基准主要由选择题组成,可能无法完全反映推理模型的能力,因此开源 Steiner 模型以供真实的人工评估和反馈。

26