アテンションを超えて:効率的なトランスフォーマーアーキテクチャにおける最近の進歩
2025-05-23
この記事では、元のAttention Is All You Need論文以降に開発された、トランスフォーマーアーキテクチャにおけるいくつかの重要な技術的進歩について探求します。これらの技術は主に、計算複雑度とメモリ要件の削減に焦点を当てています。具体例としては、グループクエリアテンション(GQA)によるメモリ使用量の削減(キー/バリュー投影の共有)、多頭潜在アテンション(MHA)による計算複雑度の低減(潜在ベクトルの利用)、Flash Attentionによる巧妙なメモリ管理による速度最適化、リングアテンション(Ring Attention)による超長シーケンス処理のためのマルチGPU並列化などが挙げられます。さらに、プリノーマライゼーション、RMSNorm、SwiGLU活性化関数と正規化手法、学習率ウォーミングアップ、コサインスケジューリング、混合専門家モデル(MoE)、マルチトークンプレディクション、推測的デコーディングなども網羅しています。これらの技術は、トランスフォーマーがより長く、より高次元なシーケンスを効率的に処理することを可能にし、速度と性能の両方を向上させます。
開発
アテンション機構