LLMs bleiben bei IMO 2025 hinter den Erwartungen zurück: Medaillenniveau unerreichbar

2025-07-19

Forscher haben fünf hochmoderne Large Language Models (LLMs) anhand der Aufgaben der Internationalen Mathematikolympiade (IMO) 2025 auf der Plattform MathArena bewertet. Gemini 2.5 Pro erzielte die beste Leistung, erreichte aber nur 31 % (13 Punkte), weit unter den 19 Punkten, die für eine Bronzemedaille erforderlich sind. Andere Modelle blieben deutlich zurück. Eine Best-of-32-Selektionsstrategie, die mehrere Antworten pro Aufgabe generierte und bewertete, erhöhte die Rechenkosten erheblich. Trotz dessen zeigen die Ergebnisse eine erhebliche Lücke zwischen aktuellen LLMs und Medaillenleistungen bei extrem schwierigen mathematischen Problemen wie denen der IMO, selbst mit erheblichen Rechenressourcen. Eine qualitative Analyse ergab Probleme wie das Zitieren nicht existierender Theoreme und das Geben zu knapper Antworten.