Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Evolução da Arquitetura de LLMs em 2025: Mergulhos Profundos em DeepSeek, OLMo, Gemma, Mistral e Qwen

2025-07-20

Este artigo revisa os avanços arquitetônicos em modelos de linguagem grandes (LLMs) durante 2025, focando em modelos de código aberto como DeepSeek, OLMo, Gemma, Mistral e Qwen. DeepSeek V3/R1 aprimora a eficiência computacional com Atenção Latente Multi-Cabeça (MLA) e Mistura de Especialistas (MoE). OLMo 2 enfatiza o posicionamento do RMSNorm, empregando Pós-Norm e QK-Norm. Gemma 3 utiliza atenção de janela deslizante para reduzir os requisitos de memória. Mistral Small 3.1 equilibra desempenho e velocidade. Qwen 3 oferece variantes densas e MoE para flexibilidade. SmolLM3 se destaca com seu tamanho de 3B parâmetros e NoPE (Sem Embeddings Posicionais). Finalmente, Kimi 2 impressiona com sua escala de trilhões de parâmetros e o otimizador Muon. Esses modelos mostram inovações em mecanismos de atenção, normalização, MoE e otimizadores, demonstrando a diversidade e a evolução contínua das arquiteturas de LLM.

(magazine.sebastianraschka.com)

IA Inovações Arquitetônicas