Putnam-AXIOM : Un nouveau benchmark qui met à l'épreuve les capacités de raisonnement mathématique des LLM
2025-01-01
Des chercheurs ont présenté Putnam-AXIOM, un benchmark exigeant composé de 236 problèmes issus de la William Lowell Putnam Mathematical Competition, conçu pour évaluer les capacités de raisonnement mathématique de haut niveau des grands modèles de langage (LLM). Afin de limiter la contamination des données, un benchmark de variations avec des modifications fonctionnelles de 52 problèmes a également été créé. Les résultats montrent que même les modèles les plus performants subissent une baisse significative de précision (environ 30 %) sur les variations par rapport aux problèmes originaux, soulignant ainsi une marge de progression importante pour le raisonnement mathématique des LLM.
Lire plus