DeepSeek-R1: Un LLM de código abierto capaz de razonar
DeepSeek-R1 es un modelo de lenguaje grande (LLM) de vanguardia que cuenta con impresionantes capacidades de razonamiento. A diferencia de los LLM típicos que simplemente predicen la siguiente palabra, DeepSeek-R1 genera 'tokens de pensamiento' para resolver problemas sistemáticamente. Su entrenamiento implica tres etapas: primero, se entrena un modelo base en conjuntos de datos masivos; segundo, un ajuste fino supervisado utilizando 600.000 ejemplos de razonamiento de cadena de pensamiento larga generados por un modelo de razonamiento especializado; y finalmente, aprendizaje por refuerzo para mejorar el rendimiento tanto en tareas de razonamiento como en tareas que no lo son. El éxito de DeepSeek-R1 demuestra que la combinación de modelos base de alta calidad con tareas de razonamiento automáticamente verificables reduce significativamente la dependencia de datos etiquetados, allanando el camino para futuros avances en los LLM.
Leer más