DeepSeek-R1: Incentivando la capacidad de razonamiento en LLM mediante el aprendizaje por refuerzo

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-01-25

DeepSeek-AI presenta sus modelos de razonamiento de primera generación, DeepSeek-R1-Zero y DeepSeek-R1. DeepSeek-R1-Zero, un modelo entrenado mediante aprendizaje por refuerzo (RL) a gran escala sin ajuste fino supervisado (SFT) como paso preliminar, demuestra notables capacidades de razonamiento. A través del RL, DeepSeek-R1-Zero emerge naturalmente con numerosos comportamientos de razonamiento poderosos e intrigantes. Sin embargo, se enfrenta a desafíos como la mala legibilidad y la mezcla de idiomas. Para abordar estos problemas y mejorar aún más el rendimiento del razonamiento, presentamos DeepSeek-R1, que incorpora entrenamiento multietapa y datos de inicio en frío antes del RL. DeepSeek-R1 logra un rendimiento comparable al de OpenAI-o1-1217 en tareas de razonamiento. Para apoyar a la comunidad de investigación, publicamos como código abierto DeepSeek-R1-Zero, DeepSeek-R1 y seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados de DeepSeek-R1 basados en Qwen y Llama.