DeepSeek-R1: Ein mit Reinforcement Learning trainiertes Reasonierungsmodell, ohne überwachtes Feintuning
Das DeepSeek-Team hat seine Reasonierungsmodelle der ersten Generation, DeepSeek-R1 und eine Reihe von destillierten Modellen, als Open Source veröffentlicht. DeepSeek-R1-Zero, trainiert mittels großskaligen Reinforcement Learning (RL) ohne überwachtes Feintuning (SFT), zeigt bemerkenswerte Reasonierungsfähigkeiten, weist aber einige Schwächen auf. DeepSeek-R1 behebt diese Probleme durch die Einbeziehung von Kaltstartdaten vor dem RL und erreicht eine vergleichbare Leistung wie OpenAI-o1. Sechs destillierte Modelle basierend auf Llama und Qwen wurden ebenfalls als Open Source veröffentlicht, wobei DeepSeek-R1-Distill-Qwen-32B OpenAI-o1-mini in verschiedenen Benchmarks übertrifft. Das Projekt unterstützt die kommerzielle Nutzung und bietet eine Online-Chat-Website und eine mit OpenAI kompatible API.