強化学習のスケーリング:ウェブ上での次トークン予測
2025-07-13

著者は、強化学習(RL)がAIモデルのトレーニングにおける次のフロンティアであると主張しています。複数の環境を同時にスケーリングする現在の方法は、混乱を招きます。代わりに、著者は、ウェブ規模のデータセット上でRLによる次トークン予測を使用して、モデルに推論を学習させることを提案しています。これは、数学やコードの問題に焦点を当てた現在のRLトレーニングデータセットの限界を超えて、容易に入手可能な膨大なウェブデータを利用します。RLと次トークン予測を統合することで、このアプローチは、はるかに強力な推論モデルを作成することを約束します。
AI