DeepSeek-R1: Modelo de razonamiento entrenado con aprendizaje por refuerzo y sus versiones destiladas
DeepSeek ha lanzado sus modelos de razonamiento de primera generación, DeepSeek-R1. Entrenado mediante aprendizaje por refuerzo a gran escala sin ajuste fino supervisado, DeepSeek-R1 soluciona problemas como la repetición infinita y la baja legibilidad presentes en su predecesor, DeepSeek-R1-Zero, incorporando datos de inicio en frío antes del RL. DeepSeek-R1 logra un rendimiento comparable al de OpenAI-o1 en varios puntos de referencia. Además, DeepSeek ha hecho de código abierto DeepSeek-R1 y seis modelos destilados basados en Llama y Qwen. DeepSeek-R1-Distill-Qwen-32B supera a OpenAI-o1-mini en varios puntos de referencia, estableciendo nuevos resultados de vanguardia para modelos destilados. Estos modelos, junto con una API fácil de usar y una interfaz de chat, están disponibles en Hugging Face.