Évolution de l'architecture des LLMs en 2025 : Plongeons au cœur de DeepSeek, OLMo, Gemma, Mistral et Qwen

2025-07-20
Évolution de l'architecture des LLMs en 2025 : Plongeons au cœur de DeepSeek, OLMo, Gemma, Mistral et Qwen

Cet article passe en revue les avancées architecturales des grands modèles de langage (LLMs) en 2025, en se concentrant sur les modèles open-source tels que DeepSeek, OLMo, Gemma, Mistral et Qwen. DeepSeek V3/R1 améliore l'efficacité computationnelle grâce à l'Attention Latente Multi-Têtes (MLA) et au Mixture-of-Experts (MoE). OLMo 2 met l'accent sur le placement de RMSNorm, utilisant Post-Norm et QK-Norm. Gemma 3 utilise l'attention à fenêtre glissante pour réduire les besoins en mémoire. Mistral Small 3.1 équilibre performance et vitesse. Qwen 3 propose des variantes denses et MoE pour plus de flexibilité. SmolLM3 se distingue par sa taille de 3 milliards de paramètres et NoPE (No Positional Embeddings). Enfin, Kimi 2 impressionne par son échelle de billions de paramètres et l'optimiseur Muon. Ces modèles présentent des innovations dans les mécanismes d'attention, la normalisation, le MoE et les optimiseurs, démontrant la diversité et l'évolution continue des architectures de LLM.