Entraînement GRPO léger : sans Transformers, sans vLLM
Ce projet implémente un framework d’entraînement GRPO (Group Relative Policy Optimization) léger, construit presque à partir de zéro, ne reposant que sur des tokeniseurs et PyTorch. Il améliore l’algorithme original en supprimant la divergence de KL et en intégrant un filtre pour les épisodes trop longs, améliorant ainsi la stabilité de l’entraînement et l’utilisation de la mémoire GPU. Le projet entraîne le modèle Qwen2.5-3B-Instruct sur la tâche CountDown, qui nécessite de générer une expression mathématique pour atteindre une valeur cible donnée un ensemble de nombres. Le modèle la résout en apprenant à générer un raisonnement en chaîne de pensée avant la réponse finale, guidé par des récompenses de format et de réponse. L’ensemble du processus est simple et reproductible, s’exécutant sur une seule GPU A40 avec un minimum de commandes.