軽量GRPOトレーニング：TransformerとvLLM不要

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-04-13

このプロジェクトは、ほぼゼロから構築され、トークナイザーとPyTorchのみに依存する軽量なGRPO（Group Relative Policy Optimization）トレーニングフレームワークを実装しています。KLダイバージェンスを削除し、長すぎるエピソードのフィルタリングを追加することで、元のアルゴリズムを改善し、トレーニングの安定性とGPUメモリの使用効率を向上させています。このプロジェクトでは、Qwen2.5-3B-InstructモデルをCountDownタスクでトレーニングします。このタスクでは、与えられた数字から目標値に達する数学式を生成する必要があります。モデルは、最終的な回答の前に、思考連鎖の推論を生成することを学習することで、この問題を解決します。フォーマットと回答の報酬によって学習がガイドされます。プロセス全体はシンプルで再現性が高く、単一のA40 GPUで最小限のコマンドで実行できます。

開発