DeepSeek-R1: Modelo de razonamiento entrenado con aprendizaje por refuerzo, sin necesidad de ajuste fino supervisado
El equipo de DeepSeek ha lanzado en código abierto sus modelos de razonamiento de primera generación, DeepSeek-R1 y un conjunto de modelos destilados. DeepSeek-R1-Zero, entrenado mediante aprendizaje por refuerzo a gran escala (RL) sin ajuste fino supervisado (SFT), demuestra notables capacidades de razonamiento, aunque presenta algunas deficiencias. DeepSeek-R1 soluciona estos problemas incorporando datos de inicio en frío antes del RL, logrando un rendimiento comparable al de OpenAI-o1. También se han lanzado en código abierto seis modelos destilados basados en Llama y Qwen, siendo DeepSeek-R1-Distill-Qwen-32B el que supera a OpenAI-o1-mini en varios puntos de referencia. El proyecto admite uso comercial y proporciona un sitio web de chat en línea y una API compatible con OpenAI.