Entwicklung der LLM-Architektur im Jahr 2025: Tiefer Einblick in DeepSeek, OLMo, Gemma, Mistral und Qwen
Dieser Artikel befasst sich mit den architektonischen Fortschritten bei großen Sprachmodellen (LLMs) im Jahr 2025 und konzentriert sich dabei auf Open-Source-Modelle wie DeepSeek, OLMo, Gemma, Mistral und Qwen. DeepSeek V3/R1 verbessert die Rechenleistung durch Multi-Head Latent Attention (MLA) und Mixture-of-Experts (MoE). OLMo 2 betont die Platzierung von RMSNorm und verwendet Post-Norm und QK-Norm. Gemma 3 nutzt Sliding Window Attention, um den Speicherbedarf zu reduzieren. Mistral Small 3.1 findet einen Ausgleich zwischen Leistung und Geschwindigkeit. Qwen 3 bietet sowohl dichte als auch MoE-Varianten für mehr Flexibilität. SmolLM3 zeichnet sich durch seine Größe von 3 Milliarden Parametern und NoPE (No Positional Embeddings) aus. Schließlich beeindruckt Kimi 2 mit seiner Billionen-Parameter-Skala und dem Muon-Optimierer. Diese Modelle zeigen Innovationen in den Aufmerksamkeitsmechanismen, der Normalisierung, MoE und Optimierern und demonstrieren die Vielfalt und die kontinuierliche Weiterentwicklung von LLM-Architekturen.