DeepSeek R1: Modelo de código aberto desafia a OpenAI em raciocínio complexo

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-01-31

O DeepSeek R1, um modelo de código aberto, está desafiando os modelos da OpenAI em tarefas de raciocínio complexo. Usando a Otimização de Política Relativa de Grupo (GRPO) e uma abordagem de treinamento de múltiplas etapas focada em aprendizado por reforço, os criadores lançaram não apenas o modelo, mas também um artigo de pesquisa detalhando seu desenvolvimento. O artigo descreve um "momento de epifania" durante o treinamento, onde o modelo aprendeu a alocar mais tempo de pensamento para um problema reavaliando sua abordagem inicial, sem feedback humano. Este post de blog recria esse "momento de epifania" usando GRPO e o jogo Countdown, treinando um modelo aberto para aprender habilidades de autoverificação e pesquisa. Um código interativo do Jupyter Notebook, juntamente com scripts e instruções para treinamento distribuído em nós multi-GPU ou clusters SLURM, é fornecido para facilitar o aprendizado de GRPO e TRL.