Putnam-AXIOM : Un nouveau benchmark qui met à l'épreuve les capacités de raisonnement mathématique des LLM

2025-01-01
Putnam-AXIOM : Un nouveau benchmark qui met à l'épreuve les capacités de raisonnement mathématique des LLM

Des chercheurs ont présenté Putnam-AXIOM, un benchmark exigeant composé de 236 problèmes issus de la William Lowell Putnam Mathematical Competition, conçu pour évaluer les capacités de raisonnement mathématique de haut niveau des grands modèles de langage (LLM). Afin de limiter la contamination des données, un benchmark de variations avec des modifications fonctionnelles de 52 problèmes a également été créé. Les résultats montrent que même les modèles les plus performants subissent une baisse significative de précision (environ 30 %) sur les variations par rapport aux problèmes originaux, soulignant ainsi une marge de progression importante pour le raisonnement mathématique des LLM.