DeepSeek-R1: Um LLM de código aberto que consegue raciocinar

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-01-27

DeepSeek-R1 é um modelo de linguagem grande (LLM) de última geração que possui capacidades de raciocínio impressionantes. Ao contrário dos LLMs típicos que simplesmente preveem a próxima palavra, o DeepSeek-R1 gera 'tokens de pensamento' para resolver problemas sistematicamente. Seu treinamento envolve três etapas: primeiro, um modelo base é treinado em conjuntos de dados massivos; segundo, ajuste fino supervisionado usando 600.000 exemplos de raciocínio de cadeia de pensamento longa gerados por um modelo de raciocínio especializado; e, finalmente, aprendizado por reforço para aprimorar o desempenho de tarefas de raciocínio e não raciocínio. O sucesso do DeepSeek-R1 demonstra que a combinação de modelos base de alta qualidade com tarefas de raciocínio automaticamente verificáveis reduz significativamente a dependência de dados rotulados, abrindo caminho para avanços futuros em LLMs.