Deepseek v3: Ein Open-Source LLM mit 607 Milliarden Parametern, das GPT-4 zu einem Bruchteil der Kosten übertrifft?
Deepseek hat sein Flaggschiffmodell v3 vorgestellt, ein Mixture-of-Experts-Modell mit 607 Milliarden Parametern und 37 Milliarden aktiven Parametern. Benchmarks zeigen, dass es mit OpenAIs GPT-4o und Claude 3.5 Sonnet konkurriert und diese in einigen Bereichen sogar übertrifft. Damit ist es das derzeit beste Open-Source-Modell und übertrifft Llama 3.1 403b, Qwen und Mistral. Bemerkenswert ist, dass Deepseek v3 diese Leistung für nur etwa 6 Millionen US-Dollar erreicht hat, indem es bahnbrechende Technologien einsetzt: MoE-Architektur, FP8-Mixed-Precision-Training und ein benutzerdefiniertes HAI-LLM-Framework. Es zeichnet sich durch herausragende Fähigkeiten im logischen Denken und in der Mathematik aus und übertrifft sogar GPT-4 und Claude 3.5 Sonnet, obwohl es bei Schreib- und Codieraufgaben etwas hinterherhinkt. Das außergewöhnliche Preis-Leistungs-Verhältnis macht es zu einer attraktiven Option für Entwickler, die KI-Anwendungen für Endkunden entwickeln.