2025年大型语言模型架构演进：DeepSeek、OLMo、Gemma、Mistral与Qwen的创新

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2025年大型语言模型架构演进：DeepSeek、OLMo、Gemma、Mistral与Qwen的创新

2025-07-20

本文回顾了2025年大型语言模型（LLM）的架构发展，重点关注DeepSeek、OLMo、Gemma、Mistral和Qwen等开源模型。DeepSeek V3/R1通过多头潜在注意力（MLA）和混合专家（MoE）技术提升计算效率；OLMo 2则注重规范化层（RMSNorm）的放置，采用后规范化（Post-Norm）和QK-Norm；Gemma 3利用滑动窗口注意力降低内存需求；Mistral Small 3.1在性能和速度上取得平衡；Qwen 3提供密集型和MoE两种模型，满足不同需求；SmolLM3以其30亿参数规模和NoPE技术（无位置嵌入）而引人注目；最后，Kimi 2凭借其万亿参数规模和Muon优化器成为亮点。这些模型在注意力机制、规范化、MoE和优化器等方面进行了创新，展现了LLM架构的多样性和持续演进。

(magazine.sebastianraschka.com)

AI 架构创新

Agora协议：构建安全匿名的全国性协商网络

利用Android手机构建全球地震预警系统