Putnam-AXIOM: Un nuevo benchmark que desafía la capacidad de razonamiento matemático de los LLM

2025-01-01
Putnam-AXIOM: Un nuevo benchmark que desafía la capacidad de razonamiento matemático de los LLM

Los investigadores presentaron Putnam-AXIOM, un benchmark desafiante que consta de 236 problemas de la William Lowell Putnam Mathematical Competition, diseñado para evaluar las capacidades de razonamiento matemático de alto nivel de los modelos de lenguaje grandes (LLM). Para mitigar la contaminación de datos, también se creó un benchmark de variaciones con alteraciones funcionales de 52 problemas. Los resultados muestran que incluso los modelos de mejor rendimiento experimentan una caída significativa en la precisión (alrededor del 30%) en las variaciones en comparación con los originales, lo que destaca un espacio sustancial para mejorar el razonamiento matemático de los LLM.