Putnam-AXIOM: Un nuevo benchmark que desafía la capacidad de razonamiento matemático de los LLM

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Putnam-AXIOM: Un nuevo benchmark que desafía la capacidad de razonamiento matemático de los LLM

2025-01-01

Los investigadores presentaron Putnam-AXIOM, un benchmark desafiante que consta de 236 problemas de la William Lowell Putnam Mathematical Competition, diseñado para evaluar las capacidades de razonamiento matemático de alto nivel de los modelos de lenguaje grandes (LLM). Para mitigar la contaminación de datos, también se creó un benchmark de variaciones con alteraciones funcionales de 52 problemas. Los resultados muestran que incluso los modelos de mejor rendimiento experimentan una caída significativa en la precisión (alrededor del 30%) en las variaciones en comparación con los originales, lo que destaca un espacio sustancial para mejorar el razonamiento matemático de los LLM.

(openreview.net)

IA Razonamiento Matemático

La aplicación web de Mastodon requiere JavaScript

Notion: Tu espacio de trabajo todo en uno