Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

DeepSeek-R1: Modelo de raciocínio treinado com aprendizado por reforço e suas versões destiladas

2025-01-20

A DeepSeek lançou seus modelos de raciocínio de primeira geração, DeepSeek-R1. Treinado por meio de aprendizado por reforço em larga escala sem ajuste fino supervisionado, o DeepSeek-R1 resolve problemas como repetição infinita e baixa legibilidade presentes em seu predecessor, DeepSeek-R1-Zero, incorporando dados de inicialização a frio antes do RL. O DeepSeek-R1 alcança desempenho comparável ao OpenAI-o1 em vários benchmarks. Além disso, a DeepSeek tornou o DeepSeek-R1 e seis modelos destilados baseados em Llama e Qwen de código aberto. O DeepSeek-R1-Distill-Qwen-32B supera o OpenAI-o1-mini em vários benchmarks, estabelecendo novos resultados de ponta para modelos destilados. Esses modelos, juntamente com uma API amigável ao usuário e uma interface de bate-papo, estão disponíveis no Hugging Face.

(huggingface.co)

IA destilação de modelos