DeepSeek-V3: 6710억 파라미터의 오픈소스 전문가 혼합 언어 모델

2024-12-26

DeepSeek-V3는 토큰당 370억 파라미터를 활성화하는 6710억 파라미터의 강력한 전문가 혼합(MoE) 언어 모델입니다. 멀티헤드 잠재적 주의(MLA) 및 DeepSeekMoE 아키텍처를 사용하며, 혁신적으로 보조 손실 없는 부하 균형 전략과 다중 토큰 예측 훈련 목표를 도입했습니다. 14.8조 개의 고품질 토큰으로 사전 훈련한 후, 지도 학습 미세 조정 및 강화 학습을 수행합니다. 평가 결과, DeepSeek-V3는 다른 오픈소스 모델을 능가하고 주요 클로즈드소스 모델과 동등한 성능을 달성하며, 놀라운 훈련 효율성(단 2.788M H800 GPU 시간)을 보여줍니다.

(github.com)

하드웨어에서 UNORM과 SNORM을 부동소수점으로 효율적으로 변환하기

W3C HTML 워킹 그룹: HTML 표준 발전 주도