DeepSeek-Prover-V2: Fortschritt im formalen mathematischen Schließen durch Reinforcement Learning

2025-04-30
DeepSeek-Prover-V2: Fortschritt im formalen mathematischen Schließen durch Reinforcement Learning

DeepSeek-Prover-V2 ist ein Open-Source-Großes Sprachmodell, das für das formale Beweisverfahren in Lean 4 entwickelt wurde. Es nutzt eine rekursive Beweispipeline, die von DeepSeek-V3 angetrieben wird, und Reinforcement Learning, um sowohl informelles als auch formales mathematisches Schließen zu integrieren. Das Modell beginnt damit, komplexe Probleme mit Hilfe von DeepSeek-V3 in Teilziele zu zerlegen, und synthetisiert die Beweise dieser Teilziele, um anfängliche Daten für das Reinforcement Learning zu erstellen. DeepSeek-Prover-V2-671B erreicht einen state-of-the-art-Performance, erreicht eine Erfolgsrate von 88,9 % beim MiniF2F-Test und löst 49 Probleme aus PutnamBench. Ein neuer Benchmark-Datensatz, ProverBench, der 325 formalisierte Probleme aus Highschool-Wettbewerben und Lehrbüchern enthält, wird ebenfalls vorgestellt.