DeepSeek-R1: 강화 학습을 통한 LLM 추론 능력 향상

2025-01-25

DeepSeek-AI는 자사의 1세대 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 공개했습니다. DeepSeek-R1-Zero는 사전 지도 학습 없이 대규모 강화 학습(RL)으로 훈련된 모델로, 놀라운 추론 능력을 보여줍니다. RL을 통해 DeepSeek-R1-Zero는 자연스럽게 여러 강력하고 흥미로운 추론 행동을 습득했습니다. 하지만 가독성 저하 및 언어 혼합과 같은 과제에도 직면했습니다. 이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해 RL 이전에 다단계 훈련 및 콜드 스타트 데이터를 통합한 DeepSeek-R1을 발표했습니다. DeepSeek-R1은 추론 작업에서 OpenAI 모델과 비슷한 성능을 달성했습니다. 연구 커뮤니티 지원을 위해 DeepSeek-R1-Zero, DeepSeek-R1 및 Qwen과 Llama를 기반으로 증류된 6가지 크기의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈소스로 공개합니다.

(arxiv.org)

거대한 신비의 첨탑, 나무보다 먼저 지구를 지배하다: 프로토탁사이트스의 수수께끼

머스크의 DOGE: 정부 감시의 새로운 도구인가?