R1-Zero de DeepSeek: ¿Un camino hacia la AGI sin anotaciones humanas?

2025-01-29
R1-Zero de DeepSeek: ¿Un camino hacia la AGI sin anotaciones humanas?

DeepSeek lanzó los sistemas de razonamiento R1-Zero y R1, obteniendo puntuaciones comparables al sistema o1 de OpenAI (15-20%) en el benchmark ARC-AGI-1, superando significativamente el 5% del GPT-4o, que se basa únicamente en el escalado de LLMs. R1-Zero es particularmente notable por su dependencia exclusiva del aprendizaje por refuerzo, eliminando la necesidad de ajuste fino supervisado (SFT). Si bien R1-Zero presenta algunos desafíos en términos de legibilidad y mezcla de idiomas, su sólido rendimiento en matemáticas y codificación demuestra un razonamiento preciso en cadena de pensamientos sin SFT. Esto abre nuevas vías en la investigación de AGI, sugiriendo un futuro en el que el entrenamiento de AGI podría prescindir completamente de la anotación humana.