ART: Melhores resultados de LLMs com mudanças mínimas de código via RL
O Agent Reinforcement Trainer (ART) é uma biblioteca de aprendizado por reforço de código aberto projetada para aumentar o desempenho de modelos de linguagem grandes (LLMs) em fluxos de trabalho de agentes. Utilizando o poderoso algoritmo GRPO, o ART treina modelos a partir de suas próprias experiências. Ao contrário da maioria das bibliotecas de RL, o ART se integra perfeitamente em bases de código existentes, descarregando a complexidade do loop de treinamento de RL para seu backend. O ART consiste em um cliente (para interagir com seu código) e um servidor (lidando com inferência e treinamento). O loop de treinamento envolve inferência (coleta de dados e atribuição de recompensas) e treinamento (usando GRPO para treinar o modelo e atualizar LoRAs). O ART suporta a maioria dos modelos de linguagem causal compatíveis com vLLM/HuggingFace Transformers. Atualmente em alfa, o ART aceita contribuições.