DeepSeek-R1: Modelo de raciocínio treinado com aprendizado por reforço, sem necessidade de ajuste fino supervisionado

2025-01-20
DeepSeek-R1: Modelo de raciocínio treinado com aprendizado por reforço, sem necessidade de ajuste fino supervisionado

A equipe DeepSeek lançou em código aberto seus modelos de raciocínio de primeira geração, DeepSeek-R1 e uma suíte de modelos destilados. O DeepSeek-R1-Zero, treinado por meio de aprendizado por reforço em larga escala (RL) sem ajuste fino supervisionado (SFT), demonstra notáveis ​​capacidades de raciocínio, embora tenha algumas falhas. O DeepSeek-R1 resolve esses problemas incorporando dados de inicialização a frio antes do RL, atingindo desempenho comparável ao OpenAI-o1. Seis modelos destilados baseados em Llama e Qwen também foram lançados em código aberto, com o DeepSeek-R1-Distill-Qwen-32B superando o OpenAI-o1-mini em vários benchmarks. O projeto suporta uso comercial e fornece um site de bate-papo online e uma API compatível com OpenAI.