Lightweight GRPO Training: Ohne Transformers und vLLM

2025-04-13
Lightweight GRPO Training: Ohne Transformers und vLLM

Dieses Projekt implementiert ein leichtgewichtiges GRPO (Group Relative Policy Optimization) Trainingsframework, das fast von Grund auf neu erstellt wurde und nur auf Tokenizer und PyTorch angewiesen ist. Es verbessert den ursprünglichen Algorithmus, indem es die KL-Divergenz entfernt und eine Filterung für zu lange Episoden hinzufügt, wodurch die Trainingsstabilität und die GPU-Speicherauslastung verbessert werden. Das Projekt trainiert das Qwen2.5-3B-Instruct-Modell für die CountDown-Aufgabe, bei der eine mathematische Formel generiert werden muss, um einen Zielwert zu erreichen, der aus einer Reihe von Zahlen besteht. Das Modell löst dies, indem es lernt, vor der endgültigen Antwort ein Chain-of-Thought-Reasoning zu generieren, geleitet von Format- und Antwortbelohnungen. Der gesamte Prozess ist einfach und reproduzierbar und läuft auf einer einzigen A40-GPU mit minimalen Befehlen.

Entwicklung