DeepSeek-V3: Ein 671 Milliarden Parameter großes Mixture-of-Experts Sprachmodell

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

DeepSeek-V3: Ein 671 Milliarden Parameter großes Mixture-of-Experts Sprachmodell

2024-12-26

DeepSeek-V3 ist ein leistungsstarkes Mixture-of-Experts (MoE) Sprachmodell mit 671 Milliarden Parametern, wobei pro Token 37 Milliarden aktiviert werden. Es verwendet Multi-Head Latent Attention (MLA) und die DeepSeekMoE Architektur und setzt innovativ eine strategie ohne Hilfsverlust für Lastausgleich und ein Multi-Token-Vorhersage-Trainingsziel ein. Es wurde mit 14,8 Billionen hochwertigen Tokens vortrainiert, gefolgt von überwachtem Feintuning und Reinforcement Learning. Bewertungen zeigen, dass DeepSeek-V3 andere Open-Source-Modelle übertrifft und eine mit führenden Closed-Source-Modellen vergleichbare Leistung erzielt, mit bemerkenswerter Trainingseffizienz – nur 2,788 Millionen H800 GPU-Stunden.

(github.com)

Effiziente UNORM- und SNORM-zu-Float-Konvertierung in Hardware

W3C HTML Arbeitsgruppe: Vorantreiben der HTML-Standardentwicklung