Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

DeepSeek-R1: Modelo de razonamiento entrenado con aprendizaje por refuerzo, sin necesidad de ajuste fino supervisado

2025-01-20

El equipo de DeepSeek ha lanzado en código abierto sus modelos de razonamiento de primera generación, DeepSeek-R1 y un conjunto de modelos destilados. DeepSeek-R1-Zero, entrenado mediante aprendizaje por refuerzo a gran escala (RL) sin ajuste fino supervisado (SFT), demuestra notables capacidades de razonamiento, aunque presenta algunas deficiencias. DeepSeek-R1 soluciona estos problemas incorporando datos de inicio en frío antes del RL, logrando un rendimiento comparable al de OpenAI-o1. También se han lanzado en código abierto seis modelos destilados basados en Llama y Qwen, siendo DeepSeek-R1-Distill-Qwen-32B el que supera a OpenAI-o1-mini en varios puntos de referencia. El proyecto admite uso comercial y proporciona un sitio web de chat en línea y una API compatible con OpenAI.

(github.com)

IA razonamiento