低コスト推論モデルが巨大モデルを凌駕:強化学習による論理パズルの攻略

2025-03-06
低コスト推論モデルが巨大モデルを凌駕:強化学習による論理パズルの攻略

研究者らは強化学習を用いて、より小さく、より安価なオープンソースの言語モデルを訓練し、「時間的手がかり」と呼ばれる推論を重視したゲームにおいて、DeepSeek R1、OpenAIのo1、o3-miniを上回り、AnthropicのSonnet 3.7に匹敵する性能を達成しました。推論時のコストは100倍以上削減されています。これは、慎重なタスク設計、ハイパーパラメータの調整、グループ相対方策最適化(GRPO)アルゴリズムとtorchtuneライブラリの使用によるものです。この研究は、強化学習が、限られたデータでも複雑な演繹タスクに対してオープンモデルを効率的に訓練できる可能性を示しており、わずか16個の訓練例で大きな性能向上を実現しました。

続きを読む
AI