2025年の大規模言語モデルアーキテクチャの進化:DeepSeek、OLMo、Gemma、Mistral、Qwenの深堀り
2025-07-20
この記事では、2025年の大規模言語モデル(LLM)のアーキテクチャの進歩をレビューし、DeepSeek、OLMo、Gemma、Mistral、Qwenなどのオープンソースモデルに焦点を当てています。DeepSeek V3/R1は、マルチヘッド潜在的アテンション(MLA)と混合専門家(MoE)を用いて計算効率を向上させます。OLMo 2は、RMSNormの配置に重点を置き、Post-NormとQK-Normを使用しています。Gemma 3は、スライディングウィンドウアテンションを使用してメモリ要件を削減します。Mistral Small 3.1は、パフォーマンスと速度のバランスを取っています。Qwen 3は、柔軟性のために密なモデルとMoEの両方のバリアントを提供します。SmolLM3は、30億パラメータのサイズとNoPE(位置エンコーディングなし)で際立っています。最後に、Kimi 2は、1兆パラメータ規模とMuonオプティマイザで印象的です。これらのモデルは、アテンションメカニズム、正規化、MoE、オプティマイザにおけるイノベーションを示しており、LLMアーキテクチャの多様性と継続的な進化を示しています。