Open-R1: Reproducción de código abierto del modelo de razonamiento DeepSeek-R1

2025-01-28
Open-R1: Reproducción de código abierto del modelo de razonamiento DeepSeek-R1

Las impresionantes capacidades de razonamiento del modelo DeepSeek-R1 han cautivado a la comunidad de IA, pero sus detalles de entrenamiento siguen sin revelarse. El proyecto Open-R1 tiene como objetivo reproducir completamente DeepSeek-R1 en código abierto, incluidos los conjuntos de datos y el pipeline de entrenamiento. Esto implicará la destilación de un conjunto de datos de razonamiento de alta calidad de DeepSeek-R1, la reproducción de su proceso de entrenamiento de aprendizaje por refuerzo puro y la exploración de métodos de entrenamiento en varias etapas. El objetivo final es crear un modelo de razonamiento transparente y reproducible, impulsando los avances en la comunidad de código abierto.

IA