Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

DeepSeek-R1: Un LLM de código abierto capaz de razonar

2025-01-27

DeepSeek-R1 es un modelo de lenguaje grande (LLM) de vanguardia que cuenta con impresionantes capacidades de razonamiento. A diferencia de los LLM típicos que simplemente predicen la siguiente palabra, DeepSeek-R1 genera 'tokens de pensamiento' para resolver problemas sistemáticamente. Su entrenamiento implica tres etapas: primero, se entrena un modelo base en conjuntos de datos masivos; segundo, un ajuste fino supervisado utilizando 600.000 ejemplos de razonamiento de cadena de pensamiento larga generados por un modelo de razonamiento especializado; y finalmente, aprendizaje por refuerzo para mejorar el rendimiento tanto en tareas de razonamiento como en tareas que no lo son. El éxito de DeepSeek-R1 demuestra que la combinación de modelos base de alta calidad con tareas de razonamiento automáticamente verificables reduce significativamente la dependencia de datos etiquetados, allanando el camino para futuros avances en los LLM.