DeepSeek의 R1-Zero: 사람의 개입 없이 AGI로 가는 길?

2025-01-29
DeepSeek의 R1-Zero: 사람의 개입 없이 AGI로 가는 길?

DeepSeek은 추론 시스템 R1-Zero와 R1을 발표했습니다. ARC-AGI-1 벤치마크에서 OpenAI의 o1 시스템과 비슷한 점수(15~20%)를 달성하여, 단순 LLM 확장에 의존하는 GPT-4o의 5%를 크게 능가했습니다. R1-Zero는 특히 주목할 만하며, 지도 학습 파인튜닝(SFT) 없이 강화 학습에만 의존합니다. R1-Zero는 가독성 및 언어 혼합에 어려움을 겪지만, 수학 및 코딩 분야에서 뛰어난 성능을 보이며 SFT 없이도 정확한 사고 연쇄 추론이 가능함을 입증했습니다. 이는 AGI 연구에 새로운 길을 열어주며, 미래에는 사람의 개입 없이 AGI를 훈련할 수 있는 가능성을 시사합니다.