Open-R1: Reproducción de código abierto del modelo de razonamiento DeepSeek-R1

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Open-R1: Reproducción de código abierto del modelo de razonamiento DeepSeek-R1

2025-01-28

Las impresionantes capacidades de razonamiento del modelo DeepSeek-R1 han cautivado a la comunidad de IA, pero sus detalles de entrenamiento siguen sin revelarse. El proyecto Open-R1 tiene como objetivo reproducir completamente DeepSeek-R1 en código abierto, incluidos los conjuntos de datos y el pipeline de entrenamiento. Esto implicará la destilación de un conjunto de datos de razonamiento de alta calidad de DeepSeek-R1, la reproducción de su proceso de entrenamiento de aprendizaje por refuerzo puro y la exploración de métodos de entrenamiento en varias etapas. El objetivo final es crear un modelo de razonamiento transparente y reproducible, impulsando los avances en la comunidad de código abierto.

(huggingface.co)

Algoritmos de Aprendizaje por Refuerzo: Una Guía Exhaustiva

Cadáveres se mueven durante más de un año después de la muerte, según un estudio