ART: Melhores resultados de LLMs com mudanças mínimas de código via RL

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-04-30

O Agent Reinforcement Trainer (ART) é uma biblioteca de aprendizado por reforço de código aberto projetada para aumentar o desempenho de modelos de linguagem grandes (LLMs) em fluxos de trabalho de agentes. Utilizando o poderoso algoritmo GRPO, o ART treina modelos a partir de suas próprias experiências. Ao contrário da maioria das bibliotecas de RL, o ART se integra perfeitamente em bases de código existentes, descarregando a complexidade do loop de treinamento de RL para seu backend. O ART consiste em um cliente (para interagir com seu código) e um servidor (lidando com inferência e treinamento). O loop de treinamento envolve inferência (coleta de dados e atribuição de recompensas) e treinamento (usando GRPO para treinar o modelo e atualizar LoRAs). O ART suporta a maioria dos modelos de linguagem causal compatíveis com vLLM/HuggingFace Transformers. Atualmente em alfa, o ART aceita contribuições.

Desenvolvimento