Lightweight GRPO Training: Ohne Transformers und vLLM

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Lightweight GRPO Training: Ohne Transformers und vLLM

2025-04-13

Dieses Projekt implementiert ein leichtgewichtiges GRPO (Group Relative Policy Optimization) Trainingsframework, das fast von Grund auf neu erstellt wurde und nur auf Tokenizer und PyTorch angewiesen ist. Es verbessert den ursprünglichen Algorithmus, indem es die KL-Divergenz entfernt und eine Filterung für zu lange Episoden hinzufügt, wodurch die Trainingsstabilität und die GPU-Speicherauslastung verbessert werden. Das Projekt trainiert das Qwen2.5-3B-Instruct-Modell für die CountDown-Aufgabe, bei der eine mathematische Formel generiert werden muss, um einen Zielwert zu erreichen, der aus einer Reihe von Zahlen besteht. Das Modell löst dies, indem es lernt, vor der endgültigen Antwort ein Chain-of-Thought-Reasoning zu generieren, geleitet von Format- und Antwortbelohnungen. Der gesamte Prozess ist einfach und reproduzierbar und läuft auf einer einzigen A40-GPU mit minimalen Befehlen.

(github.com)

Entwicklung

Kennedys Ernennung eines Impfgegners sorgt für Empörung

Debuggen eines fehlerhaften Tests mit BCCs `trace`