MiniMax-M1: Modelo de razonamiento de atención híbrida a gran escala con 456 mil millones de parámetros

2025-06-18
MiniMax-M1: Modelo de razonamiento de atención híbrida a gran escala con 456 mil millones de parámetros

MiniMax-M1 es un modelo de razonamiento de atención híbrida a gran escala y peso abierto, con 456 mil millones de parámetros. Se basa en una arquitectura híbrida de Mixture-of-Experts (MoE) combinada con un mecanismo de atención rápida. El modelo se entrenó utilizando aprendizaje por refuerzo a gran escala y supera a otros modelos líderes, como DeepSeek R1 y Qwen3-235B, en tareas complejas, especialmente en ingeniería de software y comprensión de contexto largo. Su cómputo eficiente en tiempo de prueba lo convierte en una base sólida para agentes de modelos de lenguaje de próxima generación.