Webtagr - Résumé de news de technologie

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Les LLM restent en deçà lors de l'IMO 2025 : les performances de niveau médaille restent hors de portée

2025-07-19

Des chercheurs ont évalué cinq modèles linguistiques de grande taille (LLM) de pointe sur les problèmes de l'Olympiade internationale de mathématiques (IMO) 2025 à l'aide de la plateforme MathArena. Gemini 2.5 Pro a obtenu les meilleurs résultats, atteignant seulement un score de 31 % (13 points), bien en deçà des 19 points nécessaires pour une médaille de bronze. Les autres modèles ont été significativement moins performants. Une stratégie de sélection « meilleur de 32 » a été utilisée, générant et évaluant plusieurs réponses par problème, ce qui a considérablement augmenté le coût de calcul. Malgré cela, les résultats montrent un écart important entre les LLM actuels et les performances de niveau médaille sur des problèmes mathématiques extrêmement difficiles comme ceux de l'IMO, même avec des ressources informatiques considérables. L'analyse qualitative a révélé des problèmes tels que des modèles citant des théorèmes inexistants et fournissant des réponses trop concises.

Lire plus

MathArena : Évaluation rigoureuse des LLM sur les compétitions de mathématiques

2025-04-02

MathArena est une plateforme d'évaluation des grands modèles de langage (LLM) sur les compétitions et olympiades de mathématiques récentes. Elle garantit une évaluation juste et impartiale en testant les modèles exclusivement sur des compétitions postérieures à leur sortie, évitant ainsi les évaluations rétroactives sur des données potentiellement divulguées. La plateforme publie des classements pour chaque compétition, montrant les scores de problèmes individuels pour différents modèles, et un tableau principal résumant les performances sur l'ensemble des compétitions. Chaque modèle est exécuté quatre fois par problème, la moyenne des scores et le coût (en USD) étant calculés. Le code d'évaluation est open source : https://github.com/eth-sri/matharena.

Lire plus