軽量GRPOトレーニング:TransformerとvLLM不要

2025-04-13
軽量GRPOトレーニング:TransformerとvLLM不要

このプロジェクトは、ほぼゼロから構築され、トークナイザーとPyTorchのみに依存する軽量なGRPO(Group Relative Policy Optimization)トレーニングフレームワークを実装しています。KLダイバージェンスを削除し、長すぎるエピソードのフィルタリングを追加することで、元のアルゴリズムを改善し、トレーニングの安定性とGPUメモリの使用効率を向上させています。このプロジェクトでは、Qwen2.5-3B-InstructモデルをCountDownタスクでトレーニングします。このタスクでは、与えられた数字から目標値に達する数学式を生成する必要があります。モデルは、最終的な回答の前に、思考連鎖の推論を生成することを学習することで、この問題を解決します。フォーマットと回答の報酬によって学習がガイドされます。プロセス全体はシンプルで再現性が高く、単一のA40 GPUで最小限のコマンドで実行できます。

開発