ART: Mejora del rendimiento de LLM con cambios mínimos de código mediante RL
Agent Reinforcement Trainer (ART) es una biblioteca de aprendizaje por refuerzo de código abierto diseñada para aumentar el rendimiento de los modelos de lenguaje grandes (LLM) en flujos de trabajo de agentes. Utilizando el potente algoritmo GRPO, ART entrena modelos a partir de sus propias experiencias. A diferencia de la mayoría de las bibliotecas de RL, ART se integra perfectamente en las bases de código existentes, descargando la complejidad del bucle de entrenamiento de RL a su backend. ART consta de un cliente (para interactuar con su código) y un servidor (que maneja la inferencia y el entrenamiento). El bucle de entrenamiento implica inferencia (recopilación de datos y asignación de recompensas) y entrenamiento (utilizando GRPO para entrenar el modelo y actualizar LoRAs). ART admite la mayoría de los modelos de lenguaje causal compatibles con vLLM/HuggingFace Transformers. Actualmente en fase alfa, ART acepta contribuciones.