DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio de aprendizado por reforço

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-01-25

A DeepSeek-AI apresenta seus modelos de raciocínio de primeira geração, DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, um modelo treinado por meio de aprendizado por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT) como etapa preliminar, demonstra notáveis capacidades de raciocínio. Através do RL, o DeepSeek-R1-Zero emerge naturalmente com diversos comportamentos de raciocínio poderosos e intrigantes. No entanto, ele encontra desafios como pouca legibilidade e mistura de idiomas. Para resolver esses problemas e melhorar ainda mais o desempenho do raciocínio, apresentamos o DeepSeek-R1, que incorpora treinamento em várias etapas e dados de inicialização a frio antes do RL. O DeepSeek-R1 alcança desempenho comparável ao OpenAI-o1-1217 em tarefas de raciocínio. Para apoiar a comunidade de pesquisa, disponibilizamos como código aberto o DeepSeek-R1-Zero, DeepSeek-R1 e seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados do DeepSeek-R1 com base em Qwen e Llama.