Évolution de l'architecture des LLMs en 2025 : Plongeons au cœur de DeepSeek, OLMo, Gemma, Mistral et Qwen

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-07-20

Cet article passe en revue les avancées architecturales des grands modèles de langage (LLMs) en 2025, en se concentrant sur les modèles open-source tels que DeepSeek, OLMo, Gemma, Mistral et Qwen. DeepSeek V3/R1 améliore l'efficacité computationnelle grâce à l'Attention Latente Multi-Têtes (MLA) et au Mixture-of-Experts (MoE). OLMo 2 met l'accent sur le placement de RMSNorm, utilisant Post-Norm et QK-Norm. Gemma 3 utilise l'attention à fenêtre glissante pour réduire les besoins en mémoire. Mistral Small 3.1 équilibre performance et vitesse. Qwen 3 propose des variantes denses et MoE pour plus de flexibilité. SmolLM3 se distingue par sa taille de 3 milliards de paramètres et NoPE (No Positional Embeddings). Enfin, Kimi 2 impressionne par son échelle de billions de paramètres et l'optimiseur Muon. Ces modèles présentent des innovations dans les mécanismes d'attention, la normalisation, le MoE et les optimiseurs, démontrant la diversité et l'évolution continue des architectures de LLM.