Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

MathArena: Evaluación rigurosa de LLMs en competiciones de matemáticas

2025-04-02

MathArena es una plataforma para evaluar modelos de lenguaje grandes (LLMs) en competiciones y olimpiadas de matemáticas recientes. Asegura una evaluación justa e imparcial probando los modelos exclusivamente en competiciones posteriores a su lanzamiento, evitando evaluaciones retroactivas sobre datos potencialmente filtrados. La plataforma publica clasificaciones para cada competición, mostrando las puntuaciones de problemas individuales para diferentes modelos, y una tabla principal que resume el rendimiento en todas las competiciones. Cada modelo se ejecuta cuatro veces por problema, promediando la puntuación y calculando el coste (en USD). El código de evaluación es de código abierto: https://github.com/eth-sri/matharena.

(matharena.ai)

IA Competiciones de Matemáticas