MathArena: Evaluación rigurosa de LLMs en competiciones de matemáticas
2025-04-02
MathArena es una plataforma para evaluar modelos de lenguaje grandes (LLMs) en competiciones y olimpiadas de matemáticas recientes. Asegura una evaluación justa e imparcial probando los modelos exclusivamente en competiciones posteriores a su lanzamiento, evitando evaluaciones retroactivas sobre datos potencialmente filtrados. La plataforma publica clasificaciones para cada competición, mostrando las puntuaciones de problemas individuales para diferentes modelos, y una tabla principal que resume el rendimiento en todas las competiciones. Cada modelo se ejecuta cuatro veces por problema, promediando la puntuación y calculando el coste (en USD). El código de evaluación es de código abierto: https://github.com/eth-sri/matharena.