Evolução da Arquitetura de LLMs em 2025: Mergulhos Profundos em DeepSeek, OLMo, Gemma, Mistral e Qwen

Este artigo revisa os avanços arquitetônicos em modelos de linguagem grandes (LLMs) durante 2025, focando em modelos de código aberto como DeepSeek, OLMo, Gemma, Mistral e Qwen. DeepSeek V3/R1 aprimora a eficiência computacional com Atenção Latente Multi-Cabeça (MLA) e Mistura de Especialistas (MoE). OLMo 2 enfatiza o posicionamento do RMSNorm, empregando Pós-Norm e QK-Norm. Gemma 3 utiliza atenção de janela deslizante para reduzir os requisitos de memória. Mistral Small 3.1 equilibra desempenho e velocidade. Qwen 3 oferece variantes densas e MoE para flexibilidade. SmolLM3 se destaca com seu tamanho de 3B parâmetros e NoPE (Sem Embeddings Posicionais). Finalmente, Kimi 2 impressiona com sua escala de trilhões de parâmetros e o otimizador Muon. Esses modelos mostram inovações em mecanismos de atenção, normalização, MoE e otimizadores, demonstrando a diversidade e a evolução contínua das arquiteturas de LLM.