Open-R1: Reprodução em código aberto do modelo de raciocínio DeepSeek-R1

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Open-R1: Reprodução em código aberto do modelo de raciocínio DeepSeek-R1

2025-01-28

As impressionantes capacidades de raciocínio do modelo DeepSeek-R1 cativaram a comunidade de IA, mas seus detalhes de treinamento permanecem não divulgados. O projeto Open-R1 visa reproduzir completamente o DeepSeek-R1 em código aberto, incluindo conjuntos de dados e pipeline de treinamento. Isso envolverá a destilação de um conjunto de dados de raciocínio de alta qualidade do DeepSeek-R1, a replicação de seu processo de treinamento de aprendizado por reforço puro e a exploração de métodos de treinamento em várias etapas. O objetivo final é criar um modelo de raciocínio transparente e reprodutível, impulsionando avanços na comunidade de código aberto.

(huggingface.co)

Algoritmos de Aprendizado por Reforço: Um Guia Abrangente

Cadáveres se movem por mais de um ano após a morte, diz estudo