DeepSeek-V3: Ein 671 Milliarden Parameter großes Mixture-of-Experts Sprachmodell
2024-12-26
DeepSeek-V3 ist ein leistungsstarkes Mixture-of-Experts (MoE) Sprachmodell mit 671 Milliarden Parametern, wobei pro Token 37 Milliarden aktiviert werden. Es verwendet Multi-Head Latent Attention (MLA) und die DeepSeekMoE Architektur und setzt innovativ eine strategie ohne Hilfsverlust für Lastausgleich und ein Multi-Token-Vorhersage-Trainingsziel ein. Es wurde mit 14,8 Billionen hochwertigen Tokens vortrainiert, gefolgt von überwachtem Feintuning und Reinforcement Learning. Bewertungen zeigen, dass DeepSeek-V3 andere Open-Source-Modelle übertrifft und eine mit führenden Closed-Source-Modellen vergleichbare Leistung erzielt, mit bemerkenswerter Trainingseffizienz – nur 2,788 Millionen H800 GPU-Stunden.
KI