R1-Zeroの解明:OatフレームワークによるLLMの高効率アラインメント

2025-03-22
R1-Zeroの解明:OatフレームワークによるLLMの高効率アラインメント

研究者らは、R1-Zeroライクなトレーニングの謎を解き明かす論文、モデル、コードベースを発表しました。彼らは、高度にモジュール化され、効率的なLLM強化学習フレームワークであるOatを開発し、それを用いてQwen2.5などのモデルをR1-Zeroトレーニングしました。研究では、適切なベースモデルと改良された強化学習アルゴリズム(Dr. GRPO)が重要であり、不一致なテンプレートと質問セットによるバイアスされた最適化を回避できることが分かりました。最終的に、8台のA100 GPUでわずか27時間という計算時間で最先端の性能を達成しました。

AI