Webtagr - 기술 뉴스 다이제스트

DeepSeek-R1: 추론이 가능한 오픈소스 LLM

2025-01-27

DeepSeek-R1은 인상적인 추론 능력을 갖춘 최첨단 대규모 언어 모델(LLM)입니다. 단순히 다음 단어를 예측하는 것이 아니라, 문제를 체계적으로 해결하기 위해 '사고 토큰'을 생성합니다. 학습 과정은 세 단계로 구성됩니다. 먼저, 방대한 데이터셋으로 기본 모델을 학습시킵니다. 다음으로, 전문 추론 모델이 생성한 60만 개의 장쇄 사고 추론 샘플을 사용하여 지도 학습 방식의 미세 조정을 수행합니다. 마지막으로, 강화 학습을 통해 추론 작업과 비추론 작업 모두의 성능을 향상시킵니다. DeepSeek-R1의 성공은 고품질 기본 모델과 자동으로 검증 가능한 추론 작업을 결합함으로써 라벨이 지정된 데이터에 대한 의존도를 크게 줄일 수 있음을 보여주며, 미래 LLM의 발전을 위한 길을 열어줍니다.

(newsletter.languagemodels.co)