Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

DeepSeek-R1: Modelo de razonamiento entrenado con aprendizaje por refuerzo y sus versiones destiladas

2025-01-20

DeepSeek ha lanzado sus modelos de razonamiento de primera generación, DeepSeek-R1. Entrenado mediante aprendizaje por refuerzo a gran escala sin ajuste fino supervisado, DeepSeek-R1 soluciona problemas como la repetición infinita y la baja legibilidad presentes en su predecesor, DeepSeek-R1-Zero, incorporando datos de inicio en frío antes del RL. DeepSeek-R1 logra un rendimiento comparable al de OpenAI-o1 en varios puntos de referencia. Además, DeepSeek ha hecho de código abierto DeepSeek-R1 y seis modelos destilados basados en Llama y Qwen. DeepSeek-R1-Distill-Qwen-32B supera a OpenAI-o1-mini en varios puntos de referencia, estableciendo nuevos resultados de vanguardia para modelos destilados. Estos modelos, junto con una API fácil de usar y una interfaz de chat, están disponibles en Hugging Face.

(huggingface.co)

IA destilación de modelos