Agent Reinforcement Trainer (ART): 用最少代码改进LLM性能的强化学习库
2025-04-30
Agent Reinforcement Trainer (ART)是一个开源强化学习库,用于提升大型语言模型(LLM)在代理工作流程中的性能。ART利用强大的GRPO强化学习算法,通过模型自身的经验进行训练。不同于大多数RL库,ART允许你将代理运行集成到现有代码库中,同时将RL训练循环的复杂性卸载到ART后端。ART包含客户端和服务器两部分,客户端负责与你的代码库交互,服务器则负责推理和训练。训练循环包括推理阶段(收集数据并分配奖励)和训练阶段(使用GRPO算法训练模型并更新LoRA)。ART支持大多数与vLLM/HuggingFace transformers兼容的因果语言模型,目前正处于alpha阶段,欢迎贡献代码。
开发