s1: 简易测试时缩放,实现强大的推理性能

2025-02-03
s1: 简易测试时缩放,实现强大的推理性能

这篇论文介绍了s1,一种简单的测试时缩放方法,仅需1000个示例和预算强制即可实现与o1-preview相当的强大推理性能。该方法通过巧妙的测试时策略,在大型语言模型上实现了显著的性能提升,相关代码和数据已开源,方便研究者复现和进一步探索。