R1-Zero entschlüsselt: Effiziente LLM-Ausrichtung mit dem Oat-Framework

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

R1-Zero entschlüsselt: Effiziente LLM-Ausrichtung mit dem Oat-Framework

2025-03-22

Forscher haben einen Artikel, Modelle und einen Codebase veröffentlicht, die die Geheimnisse des R1-Zero-ähnlichen Trainings lüften. Sie entwickelten Oat, ein hochmodulares und effizientes LLM-Verstärkungslernframework, und nutzten es, um Modelle wie Qwen2.5 mit R1-Zero zu trainieren. Die Studie ergab, dass geeignete Basismodelle und ein verbesserter Verstärkungslern-Algorithmus (Dr. GRPO) entscheidend sind, um eine verzerrte Optimierung durch nicht übereinstimmende Vorlagen und Fragen zu vermeiden. Letztendlich erzielten sie mit nur 27 Stunden Rechenzeit auf 8 A100-GPUs Spitzenergebnisse.

(github.com)

FizzBee: Modellierung von gegenseitigem Ausschluss und die Fallstricke von Redlock

Tieftauchen in PyTorch: Tensoren, Autograd und Kernel-Programmierung