DeepSeek R1: Open-Source-Modell fordert OpenAI im komplexen Schließen heraus
DeepSeek R1, ein Open-Source-Modell, stellt die Modelle von OpenAI bei komplexen Denkaufgaben in Frage. Mittels Group Relative Policy Optimization (GRPO) und einem auf Reinforcement Learning basierenden mehrstufigen Trainingsansatz veröffentlichten die Entwickler nicht nur das Modell, sondern auch eine Forschungsarbeit, die dessen Entwicklung detailliert beschreibt. Die Arbeit beschreibt einen "Aha-Moment" während des Trainings, bei dem das Modell lernte, mehr Denkzeit auf ein Problem aufzuwenden, indem es seinen anfänglichen Ansatz neu bewertete, ohne menschliches Feedback. Dieser Blogbeitrag rekonstruiert diesen "Aha-Moment" mithilfe von GRPO und dem Countdown-Spiel, indem ein offenes Modell trainiert wird, um Fähigkeiten zur Selbstverifizierung und Suche zu erlernen. Ein interaktiver Jupyter-Notebook-Code sowie Skripte und Anweisungen für das verteilte Training auf Multi-GPU-Knoten oder SLURM-Clustern werden bereitgestellt, um das Erlernen von GRPO und TRL zu erleichtern.