DeepSeek-Prover-V2: Aprimorando o raciocínio matemático formal por meio de aprendizado por reforço

2025-04-30
DeepSeek-Prover-V2: Aprimorando o raciocínio matemático formal por meio de aprendizado por reforço

DeepSeek-Prover-V2 é um modelo de linguagem grande de código aberto projetado para prova de teoremas formais em Lean 4. Ele utiliza um pipeline de prova de teoremas recursivo alimentado pelo DeepSeek-V3 e aprendizado por reforço para integrar o raciocínio matemático formal e informal. O modelo começa decompondo problemas complexos em subobjetivos usando o DeepSeek-V3, sintetizando provas desses subobjetivos para criar dados iniciais para o aprendizado por reforço. O DeepSeek-Prover-V2-671B alcança desempenho de ponta, atingindo uma taxa de aprovação de 88,9% no MiniF2F-test e resolvendo 49 problemas do PutnamBench. Um novo conjunto de dados de referência, ProverBench, contendo 325 problemas formalizados de competições do ensino médio e livros didáticos, também é introduzido.