DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio de aprendizado por reforço

A DeepSeek-AI apresenta seus modelos de raciocínio de primeira geração, DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, um modelo treinado por meio de aprendizado por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT) como etapa preliminar, demonstra notáveis capacidades de raciocínio. Através do RL, o DeepSeek-R1-Zero emerge naturalmente com diversos comportamentos de raciocínio poderosos e intrigantes. No entanto, ele encontra desafios como pouca legibilidade e mistura de idiomas. Para resolver esses problemas e melhorar ainda mais o desempenho do raciocínio, apresentamos o DeepSeek-R1, que incorpora treinamento em várias etapas e dados de inicialização a frio antes do RL. O DeepSeek-R1 alcança desempenho comparável ao OpenAI-o1-1217 em tarefas de raciocínio. Para apoiar a comunidade de pesquisa, disponibilizamos como código aberto o DeepSeek-R1-Zero, DeepSeek-R1 e seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados do DeepSeek-R1 com base em Qwen e Llama.