DeepSeek v3: Melhorias Significativas na Arquitetura Transformer
2025-01-28

O DeepSeek v3 alcança desempenho de ponta em benchmarks com uma quantidade de computação significativamente menor do que modelos comparáveis. Isso se deve a melhorias arquitetônicas importantes: A Atenção Latente Multi-cabeça (MLA) reduz drasticamente o tamanho do cache KV sem sacrificar a qualidade do modelo; o MoE (Mixture-of-Experts) aprimorado aborda o colapso de roteamento por meio de balanceamento de carga sem perda auxiliar e especialistas compartilhados; e a previsão multi-token aumenta a eficiência do treinamento e a velocidade de inferência. Essas melhorias demonstram uma compreensão profunda da arquitetura Transformer e apontam o caminho para modelos de linguagem amplos.
(epoch.ai)
IA