Agent Reinforcement Trainer (ART): 用最少代码改进LLM性能的强化学习库

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Agent Reinforcement Trainer (ART): 用最少代码改进LLM性能的强化学习库

2025-04-30

Agent Reinforcement Trainer (ART)是一个开源强化学习库，用于提升大型语言模型(LLM)在代理工作流程中的性能。ART利用强大的GRPO强化学习算法，通过模型自身的经验进行训练。不同于大多数RL库，ART允许你将代理运行集成到现有代码库中，同时将RL训练循环的复杂性卸载到ART后端。ART包含客户端和服务器两部分，客户端负责与你的代码库交互，服务器则负责推理和训练。训练循环包括推理阶段（收集数据并分配奖励）和训练阶段（使用GRPO算法训练模型并更新LoRA）。ART支持大多数与vLLM/HuggingFace transformers兼容的因果语言模型，目前正处于alpha阶段，欢迎贡献代码。

(github.com)

开发

谷歌反垄断案：皮柴作证，数据共享或将导致“事实上的分拆”

DeepSeek-Prover-V2：强化学习赋能的定理证明模型