2025년 대규모 언어 모델 아키텍처의 발전: DeepSeek, OLMo, Gemma, Mistral, Qwen 심층 분석

2025-07-20
2025년 대규모 언어 모델 아키텍처의 발전: DeepSeek, OLMo, Gemma, Mistral, Qwen 심층 분석

본 논문은 2025년 대규모 언어 모델(LLM)의 아키텍처 발전을 검토하고, DeepSeek, OLMo, Gemma, Mistral, Qwen 등 오픈소스 모델에 중점을 둡니다. DeepSeek V3/R1은 다중 헤드 잠재적 어텐션(MLA)과 전문가 혼합(MoE)을 사용하여 계산 효율성을 향상시킵니다. OLMo 2는 RMSNorm 배치에 중점을 두고 Post-Norm과 QK-Norm을 사용합니다. Gemma 3은 슬라이딩 윈도우 어텐션을 사용하여 메모리 요구 사항을 줄입니다. Mistral Small 3.1은 성능과 속도의 균형을 이룹니다. Qwen 3은 유연성을 위해 밀집 모델과 MoE의 두 가지 변형을 제공합니다. SmolLM3는 30억 매개변수 크기와 NoPE(위치 임베딩 없음)로 두드러집니다. 마지막으로, Kimi 2는 1조 매개변수 규모와 Muon 최적화기를 사용하여 인상적입니다. 이러한 모델들은 어텐션 메커니즘, 정규화, MoE, 최적화기에서 혁신을 보여주며, LLM 아키텍처의 다양성과 지속적인 발전을 보여줍니다.