ART: Mejora del rendimiento de LLM con cambios mínimos de código mediante RL

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-04-30

Agent Reinforcement Trainer (ART) es una biblioteca de aprendizaje por refuerzo de código abierto diseñada para aumentar el rendimiento de los modelos de lenguaje grandes (LLM) en flujos de trabajo de agentes. Utilizando el potente algoritmo GRPO, ART entrena modelos a partir de sus propias experiencias. A diferencia de la mayoría de las bibliotecas de RL, ART se integra perfectamente en las bases de código existentes, descargando la complejidad del bucle de entrenamiento de RL a su backend. ART consta de un cliente (para interactuar con su código) y un servidor (que maneja la inferencia y el entrenamiento). El bucle de entrenamiento implica inferencia (recopilación de datos y asignación de recompensas) y entrenamiento (utilizando GRPO para entrenar el modelo y actualizar LoRAs). ART admite la mayoría de los modelos de lenguaje causal compatibles con vLLM/HuggingFace Transformers. Actualmente en fase alfa, ART acepta contribuciones.

Desarrollo