MathArena : Évaluation rigoureuse des LLM sur les compétitions de mathématiques

2025-04-02

MathArena est une plateforme d'évaluation des grands modèles de langage (LLM) sur les compétitions et olympiades de mathématiques récentes. Elle garantit une évaluation juste et impartiale en testant les modèles exclusivement sur des compétitions postérieures à leur sortie, évitant ainsi les évaluations rétroactives sur des données potentiellement divulguées. La plateforme publie des classements pour chaque compétition, montrant les scores de problèmes individuels pour différents modèles, et un tableau principal résumant les performances sur l'ensemble des compétitions. Chaque modèle est exécuté quatre fois par problème, la moyenne des scores et le coût (en USD) étant calculés. Le code d'évaluation est open source : https://github.com/eth-sri/matharena.