R1-Zero entschlüsselt: Effiziente LLM-Ausrichtung mit dem Oat-Framework
2025-03-22
Forscher haben einen Artikel, Modelle und einen Codebase veröffentlicht, die die Geheimnisse des R1-Zero-ähnlichen Trainings lüften. Sie entwickelten Oat, ein hochmodulares und effizientes LLM-Verstärkungslernframework, und nutzten es, um Modelle wie Qwen2.5 mit R1-Zero zu trainieren. Die Studie ergab, dass geeignete Basismodelle und ein verbesserter Verstärkungslern-Algorithmus (Dr. GRPO) entscheidend sind, um eine verzerrte Optimierung durch nicht übereinstimmende Vorlagen und Fragen zu vermeiden. Letztendlich erzielten sie mit nur 27 Stunden Rechenzeit auf 8 A100-GPUs Spitzenergebnisse.
KI