DeepSeek-V3: 6710억 파라미터의 오픈소스 전문가 혼합 언어 모델
2024-12-26
DeepSeek-V3는 토큰당 370억 파라미터를 활성화하는 6710억 파라미터의 강력한 전문가 혼합(MoE) 언어 모델입니다. 멀티헤드 잠재적 주의(MLA) 및 DeepSeekMoE 아키텍처를 사용하며, 혁신적으로 보조 손실 없는 부하 균형 전략과 다중 토큰 예측 훈련 목표를 도입했습니다. 14.8조 개의 고품질 토큰으로 사전 훈련한 후, 지도 학습 미세 조정 및 강화 학습을 수행합니다. 평가 결과, DeepSeek-V3는 다른 오픈소스 모델을 능가하고 주요 클로즈드소스 모델과 동등한 성능을 달성하며, 놀라운 훈련 효율성(단 2.788M H800 GPU 시간)을 보여줍니다.
AI