s1:シンプルなテスト時スケーリングによる強力な推論性能

2025-02-03
s1:シンプルなテスト時スケーリングによる強力な推論性能

この論文では、s1というシンプルなテスト時スケーリング手法を紹介しています。わずか1000個のサンプルと予算制約だけで、o1-previewに匹敵する強力な推論性能を実現します。この手法は、巧妙なテスト時戦略により、大規模言語モデルのパフォーマンスを大幅に向上させます。コードとデータはオープンソース化されており、再現性とさらなる調査を容易にします。