MiniMax-M1 : Un modèle de raisonnement à attention hybride à grande échelle avec 456 milliards de paramètres
2025-06-18
MiniMax-M1 est un modèle de raisonnement à attention hybride, à grande échelle et à poids ouvert, doté de 456 milliards de paramètres. Il est basé sur une architecture hybride Mixture-of-Experts (MoE) combinée à un mécanisme d'attention rapide. Le modèle a été entraîné à l'aide de l'apprentissage par renforcement à grande échelle et surpasse d'autres modèles de pointe tels que DeepSeek R1 et Qwen3-235B sur des tâches complexes, notamment en génie logiciel et en compréhension de contextes longs. Son calcul efficace au moment des tests en fait une base solide pour les agents de modèles linguistiques de nouvelle génération.