DeepSeek-R1: 강화 학습으로 훈련된 추론 모델 및 그 증류 버전

2025-01-20
DeepSeek-R1: 강화 학습으로 훈련된 추론 모델 및 그 증류 버전

DeepSeek은 최초의 추론 모델인 DeepSeek-R1을 공개했습니다. 지도 학습 미세 조정 없이 대규모 강화 학습을 통해 훈련된 DeepSeek-R1은 이전 버전인 DeepSeek-R1-Zero에서 나타났던 무한 반복 및 가독성 저하와 같은 문제점을 RL 이전에 콜드 스타트 데이터를 통합하여 해결했습니다. DeepSeek-R1은 다양한 벤치마크에서 OpenAI-o1과 비슷한 성능을 달성했습니다. 또한 DeepSeek은 DeepSeek-R1과 Llama 및 Qwen 기반의 6개의 증류 모델을 오픈소스로 공개했습니다. DeepSeek-R1-Distill-Qwen-32B는 여러 벤치마크에서 OpenAI-o1-mini를 능가하여 증류 모델에서 새로운 최첨단 결과를 달성했습니다. 이러한 모델은 사용자 친화적인 API와 채팅 인터페이스와 함께 Hugging Face에서 제공됩니다.