ART : Amélioration des performances des LLM avec des modifications de code minimales grâce au RL

2025-04-30
ART : Amélioration des performances des LLM avec des modifications de code minimales grâce au RL

Agent Reinforcement Trainer (ART) est une bibliothèque d'apprentissage par renforcement open source conçue pour améliorer les performances des grands modèles de langage (LLM) dans les workflows d'agents. Utilisant le puissant algorithme GRPO, ART entraîne les modèles à partir de leurs propres expériences. Contrairement à la plupart des bibliothèques RL, ART s'intègre parfaitement aux bases de code existantes, déchargeant la complexité de la boucle d'entraînement RL sur son backend. ART se compose d'un client (pour interagir avec votre code) et d'un serveur (gérant l'inférence et l'entraînement). La boucle d'entraînement implique l'inférence (collecte de données et attribution de récompenses) et l'entraînement (utilisation de GRPO pour entraîner le modèle et mettre à jour les LoRAs). ART prend en charge la plupart des modèles de langage causal compatibles avec vLLM/HuggingFace Transformers. Actuellement en version alpha, ART accepte les contributions.

Développement