Webtagr - Résumé de news de technologie

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Putnam-AXIOM : Un nouveau benchmark qui met à l'épreuve les capacités de raisonnement mathématique des LLM

2025-01-01

Des chercheurs ont présenté Putnam-AXIOM, un benchmark exigeant composé de 236 problèmes issus de la William Lowell Putnam Mathematical Competition, conçu pour évaluer les capacités de raisonnement mathématique de haut niveau des grands modèles de langage (LLM). Afin de limiter la contamination des données, un benchmark de variations avec des modifications fonctionnelles de 52 problèmes a également été créé. Les résultats montrent que même les modèles les plus performants subissent une baisse significative de précision (environ 30 %) sur les variations par rapport aux problèmes originaux, soulignant ainsi une marge de progression importante pour le raisonnement mathématique des LLM.

Lire plus

(openreview.net)

IA Raisonnement mathématique