DeepSeek-R1: Förderung der Denkfähigkeit in LLMs durch Reinforcement Learning

2025-01-25
DeepSeek-R1: Förderung der Denkfähigkeit in LLMs durch Reinforcement Learning

DeepSeek-AI präsentiert seine erste Generation von Denkmodellen, DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, ein Modell, das durch Reinforcement Learning (RL) im großen Maßstab ohne vorheriges Supervised Fine-Tuning (SFT) trainiert wurde, zeigt bemerkenswerte Denkfähigkeiten. Durch RL entwickelt DeepSeek-R1-Zero von selbst zahlreiche leistungsstarke und interessante Denkverhalten. Es stößt jedoch auf Herausforderungen wie schlechte Lesbarkeit und Sprachmischung. Um diese Probleme zu lösen und die Denkfähigkeit weiter zu verbessern, präsentieren wir DeepSeek-R1, das mehrstufiges Training und Kaltstartdaten vor dem RL integriert. DeepSeek-R1 erreicht eine vergleichbare Leistung wie OpenAI-o1-1217 bei Denkaufgaben. Um die Forschungsgemeinschaft zu unterstützen, veröffentlichen wir DeepSeek-R1-Zero, DeepSeek-R1 und sechs destillierte dichte Modelle (1.5B, 7B, 8B, 14B, 32B, 70B) basierend auf Qwen und Llama als Open Source.