DeepSeek R1: Modelo de código abierto desafía a OpenAI en razonamiento complejo
DeepSeek R1, un modelo de código abierto, está desafiando a los modelos de OpenAI en tareas de razonamiento complejo. Utilizando la Optimización de Política Relativa de Grupo (GRPO) y un enfoque de entrenamiento multietapa centrado en el aprendizaje por refuerzo, los creadores lanzaron no solo el modelo, sino también un artículo de investigación que detalla su desarrollo. El artículo describe un "momento Eureka" durante el entrenamiento donde el modelo aprendió a asignar más tiempo de pensamiento a un problema revaluando su enfoque inicial, sin retroalimentación humana. Esta entrada de blog recrea este "momento Eureka" usando GRPO y el juego Countdown, entrenando un modelo abierto para aprender habilidades de autoverificación y búsqueda. Se proporciona un código interactivo de Jupyter Notebook, junto con scripts e instrucciones para el entrenamiento distribuido en nodos multi-GPU o clústeres SLURM, para facilitar el aprendizaje de GRPO y TRL.