DeepSeek-R1: Um LLM de código aberto que consegue raciocinar

DeepSeek-R1 é um modelo de linguagem grande (LLM) de última geração que possui capacidades de raciocínio impressionantes. Ao contrário dos LLMs típicos que simplesmente preveem a próxima palavra, o DeepSeek-R1 gera 'tokens de pensamento' para resolver problemas sistematicamente. Seu treinamento envolve três etapas: primeiro, um modelo base é treinado em conjuntos de dados massivos; segundo, ajuste fino supervisionado usando 600.000 exemplos de raciocínio de cadeia de pensamento longa gerados por um modelo de raciocínio especializado; e, finalmente, aprendizado por reforço para aprimorar o desempenho de tarefas de raciocínio e não raciocínio. O sucesso do DeepSeek-R1 demonstra que a combinação de modelos base de alta qualidade com tarefas de raciocínio automaticamente verificáveis reduz significativamente a dependência de dados rotulados, abrindo caminho para avanços futuros em LLMs.