DeepSeek的R1-Zero:无需人工标注的AGI新路径?

2025-01-29
DeepSeek的R1-Zero:无需人工标注的AGI新路径?

DeepSeek发布了R1-Zero和R1两个推理系统,在ARC-AGI-1基准测试中取得了与OpenAI的o1系统相当的成绩(15-20%),远超仅依靠LLM规模化训练的GPT-4o(5%)。R1-Zero尤其引人注目,因为它完全依赖强化学习,无需人工标注(SFT),这突破了以往依赖大量人工标注的瓶颈。虽然R1-Zero在可读性和语言混杂性方面存在一些挑战,但在数学和编码领域表现出色,表明在特定领域,无需SFT也能实现准确的链式思维推理。这为AGI研究开辟了新的方向,预示着未来可能出现完全摆脱人工标注的AGI训练模式。

AI