Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

迈向复现 OpenAI o1 的一小步：Steiner 开源模型进展报告

2024-10-22

本文介绍了Steiner，一个基于强化学习训练的开源推理模型，旨在复现 OpenAI o1。Steiner 能够在推理过程中以自回归的方式探索多种推理路径，并在必要时自主验证或回溯。文章详细介绍了 Steiner 的数据合成方法、训练过程（包括持续预训练、监督微调和强化学习）、评估结果以及局限性。虽然 Steiner 在 GPQA-Diamond 数据集上取得了显著改进，但尚未复现 o1 的推理时间缩放能力。作者认为自动化评估基准主要由选择题组成，可能无法完全反映推理模型的能力，因此开源 Steiner 模型以供真实的人工评估和反馈。

(medium.com)

未分类推理模型 OpenAI o1