Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Evolución de la Arquitectura de LLMs en 2025: Inmersiones Profundas en DeepSeek, OLMo, Gemma, Mistral y Qwen

2025-07-20

Este artículo revisa los avances arquitectónicos en los modelos de lenguaje grandes (LLMs) durante 2025, centrándose en modelos de código abierto como DeepSeek, OLMo, Gemma, Mistral y Qwen. DeepSeek V3/R1 mejora la eficiencia computacional con Atención Latente Multi-Cabeza (MLA) y Mezcla de Expertos (MoE). OLMo 2 enfatiza la colocación de RMSNorm, empleando Post-Norm y QK-Norm. Gemma 3 utiliza atención de ventana deslizante para reducir los requisitos de memoria. Mistral Small 3.1 equilibra rendimiento y velocidad. Qwen 3 ofrece variantes densas y MoE para flexibilidad. SmolLM3 destaca por su tamaño de 3B parámetros y NoPE (Sin Embeddings Posicionales). Finalmente, Kimi 2 impresiona con su escala de billones de parámetros y el optimizador Muon. Estos modelos muestran innovaciones en mecanismos de atención, normalización, MoE y optimizadores, demostrando la diversidad y la evolución continua de las arquitecturas de LLM.

(magazine.sebastianraschka.com)

IA Innovaciones Arquitectónicas