DeepSeek R1: Modelo de código aberto desafia a OpenAI em raciocínio complexo

O DeepSeek R1, um modelo de código aberto, está desafiando os modelos da OpenAI em tarefas de raciocínio complexo. Usando a Otimização de Política Relativa de Grupo (GRPO) e uma abordagem de treinamento de múltiplas etapas focada em aprendizado por reforço, os criadores lançaram não apenas o modelo, mas também um artigo de pesquisa detalhando seu desenvolvimento. O artigo descreve um "momento de epifania" durante o treinamento, onde o modelo aprendeu a alocar mais tempo de pensamento para um problema reavaliando sua abordagem inicial, sem feedback humano. Este post de blog recria esse "momento de epifania" usando GRPO e o jogo Countdown, treinando um modelo aberto para aprender habilidades de autoverificação e pesquisa. Um código interativo do Jupyter Notebook, juntamente com scripts e instruções para treinamento distribuído em nós multi-GPU ou clusters SLURM, é fornecido para facilitar o aprendizado de GRPO e TRL.