2025年大型语言模型架构演进:DeepSeek、OLMo、Gemma、Mistral与Qwen的创新
2025-07-20

本文回顾了2025年大型语言模型(LLM)的架构发展,重点关注DeepSeek、OLMo、Gemma、Mistral和Qwen等开源模型。DeepSeek V3/R1通过多头潜在注意力(MLA)和混合专家(MoE)技术提升计算效率;OLMo 2则注重规范化层(RMSNorm)的放置,采用后规范化(Post-Norm)和QK-Norm;Gemma 3利用滑动窗口注意力降低内存需求;Mistral Small 3.1在性能和速度上取得平衡;Qwen 3提供密集型和MoE两种模型,满足不同需求;SmolLM3以其30亿参数规模和NoPE技术(无位置嵌入)而引人注目;最后,Kimi 2凭借其万亿参数规模和Muon优化器成为亮点。这些模型在注意力机制、规范化、MoE和优化器等方面进行了创新,展现了LLM架构的多样性和持续演进。
AI
架构创新