Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

MiniMax-M1: Modelo de raciocínio de atenção híbrida em larga escala com 456 bilhões de parâmetros

2025-06-18

O MiniMax-M1 é um modelo de raciocínio de atenção híbrida em larga escala e peso aberto, com 456 bilhões de parâmetros. Ele é alimentado por uma arquitetura híbrida de Mixture-of-Experts (MoE) combinada com um mecanismo de atenção rápida. O modelo foi treinado usando aprendizado por reforço em larga escala e supera outros modelos líderes, como DeepSeek R1 e Qwen3-235B, em tarefas complexas, especialmente em engenharia de software e compreensão de contexto longo. Sua computação eficiente em tempo de teste o torna uma base sólida para agentes de modelos de linguagem de próxima geração.

(github.com)

IA Atenção Híbrida