DeepSeek-R1: Ein Open-Source LLM mit Schlussfolgerungsfähigkeiten
DeepSeek-R1 ist ein hochmodernes großes Sprachmodell (LLM), das beeindruckende Schlussfolgerungsfähigkeiten besitzt. Im Gegensatz zu typischen LLMs, die lediglich das nächste Wort vorhersagen, generiert DeepSeek-R1 „Denk-Token“, um Probleme systematisch zu lösen. Sein Training umfasst drei Phasen: erstens wird ein Basismodell mit riesigen Datensätzen trainiert; zweitens erfolgt ein überwachtes Feintuning mit 600.000 Beispielen für langkettiges Denk-Reasoning, die von einem spezialisierten Reasonierungsmodell generiert wurden; und schließlich wird durch Reinforcement Learning die Leistung sowohl bei Schlussfolgerungs- als auch bei Nicht-Schlussfolgerungsaufgaben verbessert. Der Erfolg von DeepSeek-R1 zeigt, dass die Kombination von hochwertigen Basismodellen mit automatisch verifizierbaren Schlussfolgerungsaufgaben die Abhängigkeit von annotierten Daten deutlich reduziert und den Weg für zukünftige Fortschritte bei LLMs ebnet.