MiniMax-M1: Modelo de raciocínio de atenção híbrida em larga escala com 456 bilhões de parâmetros
2025-06-18
O MiniMax-M1 é um modelo de raciocínio de atenção híbrida em larga escala e peso aberto, com 456 bilhões de parâmetros. Ele é alimentado por uma arquitetura híbrida de Mixture-of-Experts (MoE) combinada com um mecanismo de atenção rápida. O modelo foi treinado usando aprendizado por reforço em larga escala e supera outros modelos líderes, como DeepSeek R1 e Qwen3-235B, em tarefas complexas, especialmente em engenharia de software e compreensão de contexto longo. Sua computação eficiente em tempo de teste o torna uma base sólida para agentes de modelos de linguagem de próxima geração.