DeepSeek-R1: Modelo de raciocínio treinado com aprendizado por reforço e suas versões destiladas

2025-01-20
DeepSeek-R1: Modelo de raciocínio treinado com aprendizado por reforço e suas versões destiladas

A DeepSeek lançou seus modelos de raciocínio de primeira geração, DeepSeek-R1. Treinado por meio de aprendizado por reforço em larga escala sem ajuste fino supervisionado, o DeepSeek-R1 resolve problemas como repetição infinita e baixa legibilidade presentes em seu predecessor, DeepSeek-R1-Zero, incorporando dados de inicialização a frio antes do RL. O DeepSeek-R1 alcança desempenho comparável ao OpenAI-o1 em vários benchmarks. Além disso, a DeepSeek tornou o DeepSeek-R1 e seis modelos destilados baseados em Llama e Qwen de código aberto. O DeepSeek-R1-Distill-Qwen-32B supera o OpenAI-o1-mini em vários benchmarks, estabelecendo novos resultados de ponta para modelos destilados. Esses modelos, juntamente com uma API amigável ao usuário e uma interface de bate-papo, estão disponíveis no Hugging Face.