DeepSeek-R1: 지도 학습 파인튜닝 없이 강화 학습으로 훈련된 추론 모델
2025-01-20
DeepSeek 팀은 자사의 1세대 추론 모델인 DeepSeek-R1과 여러 개의 증류 모델을 오픈소스로 공개했습니다. 지도 학습 파인튜닝(SFT) 없이 대규모 강화 학습(RL)으로 훈련된 DeepSeek-R1-Zero는 뛰어난 추론 능력을 보여주지만 몇 가지 단점이 있습니다. DeepSeek-R1은 RL 전에 콜드 스타트 데이터를 통합하여 이러한 문제를 해결하고 OpenAI-o1과 비슷한 성능을 달성했습니다. Llama와 Qwen을 기반으로 한 6개의 증류 모델도 오픈소스로 공개되었으며, DeepSeek-R1-Distill-Qwen-32B는 여러 벤치마크에서 OpenAI-o1-mini를 능가합니다. 이 프로젝트는 상업적 사용을 지원하며 온라인 채팅 웹사이트와 OpenAI 호환 API를 제공합니다.
AI