DeepSeek-R1: Ein durch Reinforcement Learning trainiertes Reasonierungsmodell und seine destillierten Versionen

2025-01-20
DeepSeek-R1: Ein durch Reinforcement Learning trainiertes Reasonierungsmodell und seine destillierten Versionen

DeepSeek hat seine Reasonierungsmodelle der ersten Generation, DeepSeek-R1, veröffentlicht. Trainiert durch groß angelegtes Reinforcement Learning ohne vorherige überwachte Feinabstimmung, behebt DeepSeek-R1 Probleme wie endlose Wiederholungen und schlechte Lesbarkeit, die im Vorgänger DeepSeek-R1-Zero vorhanden waren, durch die Einbeziehung von Kaltstartdaten vor dem RL. DeepSeek-R1 erreicht eine vergleichbare Leistung zu OpenAI-o1 über verschiedene Benchmarks. Darüber hinaus hat DeepSeek DeepSeek-R1 und sechs destillierte Modelle basierend auf Llama und Qwen open-source veröffentlicht. DeepSeek-R1-Distill-Qwen-32B übertrifft OpenAI-o1-mini in mehreren Benchmarks und erzielt neue State-of-the-Art-Ergebnisse für destillierte Modelle. Diese Modelle, zusammen mit einer benutzerfreundlichen API und einer Chat-Oberfläche, sind auf Hugging Face verfügbar.