Evolución de la Arquitectura de LLMs en 2025: Inmersiones Profundas en DeepSeek, OLMo, Gemma, Mistral y Qwen
Este artículo revisa los avances arquitectónicos en los modelos de lenguaje grandes (LLMs) durante 2025, centrándose en modelos de código abierto como DeepSeek, OLMo, Gemma, Mistral y Qwen. DeepSeek V3/R1 mejora la eficiencia computacional con Atención Latente Multi-Cabeza (MLA) y Mezcla de Expertos (MoE). OLMo 2 enfatiza la colocación de RMSNorm, empleando Post-Norm y QK-Norm. Gemma 3 utiliza atención de ventana deslizante para reducir los requisitos de memoria. Mistral Small 3.1 equilibra rendimiento y velocidad. Qwen 3 ofrece variantes densas y MoE para flexibilidad. SmolLM3 destaca por su tamaño de 3B parámetros y NoPE (Sin Embeddings Posicionales). Finalmente, Kimi 2 impresiona con su escala de billones de parámetros y el optimizador Muon. Estos modelos muestran innovaciones en mecanismos de atención, normalización, MoE y optimizadores, demostrando la diversidad y la evolución continua de las arquitecturas de LLM.