Los modelos lingüísticos grandes se quedan cortos en la IMO 2025: el rendimiento a nivel de medalla sigue siendo esquivo

2025-07-19

Los investigadores evaluaron cinco modelos lingüísticos grandes (LLM) de última generación en los problemas de la Olimpiada Matemática Internacional (IMO) de 2025 utilizando la plataforma MathArena. El Gemini 2.5 Pro obtuvo el mejor resultado, alcanzando solo una puntuación del 31% (13 puntos), muy por debajo de los 19 puntos necesarios para una medalla de bronce. Otros modelos se quedaron significativamente atrás. Se utilizó una estrategia de selección de mejor de 32, generando y evaluando múltiples respuestas por problema, lo que aumentó significativamente el coste computacional. A pesar de ello, los resultados demuestran una brecha sustancial entre los LLM actuales y el rendimiento a nivel de medalla en problemas matemáticos extremadamente desafiantes como los de la IMO, incluso con recursos computacionales sustanciales. El análisis cualitativo reveló problemas como modelos que citan teoremas inexistentes y proporcionan respuestas demasiado concisas.

Leer más

MathArena: Evaluación rigurosa de LLMs en competiciones de matemáticas

2025-04-02

MathArena es una plataforma para evaluar modelos de lenguaje grandes (LLMs) en competiciones y olimpiadas de matemáticas recientes. Asegura una evaluación justa e imparcial probando los modelos exclusivamente en competiciones posteriores a su lanzamiento, evitando evaluaciones retroactivas sobre datos potencialmente filtrados. La plataforma publica clasificaciones para cada competición, mostrando las puntuaciones de problemas individuales para diferentes modelos, y una tabla principal que resume el rendimiento en todas las competiciones. Cada modelo se ejecuta cuatro veces por problema, promediando la puntuación y calculando el coste (en USD). El código de evaluación es de código abierto: https://github.com/eth-sri/matharena.

Leer más