ART: 最小限のコード変更でLLMのパフォーマンスを最大化する強化学習ライブラリ

2025-04-30
ART: 最小限のコード変更でLLMのパフォーマンスを最大化する強化学習ライブラリ

Agent Reinforcement Trainer (ART)は、エージェントワークフローにおける大規模言語モデル(LLM)のパフォーマンス向上を目的とした、オープンソースの強化学習ライブラリです。強力なGRPOアルゴリズムを利用して、モデル自身の経験から学習します。ほとんどのRLライブラリとは異なり、ARTは既存のコードベースにシームレスに統合され、RLトレーニングループの複雑さをバックエンドにオフロードします。ARTはクライアント(コードとのインタラクションを担当)とサーバー(推論とトレーニングを担当)で構成されています。トレーニングループには、推論(データの収集と報酬の割り当て)とトレーニング(GRPOを使用してモデルのトレーニングとLoRAの更新を行う)が含まれます。ARTは、vLLM/HuggingFace Transformersと互換性のあるほとんどの因果言語モデルをサポートしています。現在アルファ版であり、貢献を歓迎しています。

開発