MiniMax-M1: Ein großes, offenes Hybrid-Aufmerksamkeits-Reasoning-Modell mit 456 Milliarden Parametern
2025-06-18
MiniMax-M1 ist ein großes, offenes Hybrid-Aufmerksamkeits-Reasoning-Modell mit 456 Milliarden Parametern. Es basiert auf einer hybriden Mixture-of-Experts (MoE)-Architektur kombiniert mit einem schnellen Aufmerksamkeitsmechanismus. Das Modell wurde mit großmaßstäblichem Reinforcement Learning trainiert und übertrifft andere führende Modelle wie DeepSeek R1 und Qwen3-235B bei komplexen Aufgaben, insbesondere im Software-Engineering und beim Verständnis langer Kontexte. Seine effiziente Berechnung zur Testzeit macht es zu einer starken Grundlage für Sprachmodell-Agenten der nächsten Generation.