Open-R1: Reproducción de código abierto del modelo de razonamiento DeepSeek-R1
2025-01-28
Las impresionantes capacidades de razonamiento del modelo DeepSeek-R1 han cautivado a la comunidad de IA, pero sus detalles de entrenamiento siguen sin revelarse. El proyecto Open-R1 tiene como objetivo reproducir completamente DeepSeek-R1 en código abierto, incluidos los conjuntos de datos y el pipeline de entrenamiento. Esto implicará la destilación de un conjunto de datos de razonamiento de alta calidad de DeepSeek-R1, la reproducción de su proceso de entrenamiento de aprendizaje por refuerzo puro y la exploración de métodos de entrenamiento en varias etapas. El objetivo final es crear un modelo de razonamiento transparente y reproducible, impulsando los avances en la comunidad de código abierto.
IA