Les LLM restent en deçà lors de l'IMO 2025 : les performances de niveau médaille restent hors de portée

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-07-19

Des chercheurs ont évalué cinq modèles linguistiques de grande taille (LLM) de pointe sur les problèmes de l'Olympiade internationale de mathématiques (IMO) 2025 à l'aide de la plateforme MathArena. Gemini 2.5 Pro a obtenu les meilleurs résultats, atteignant seulement un score de 31 % (13 points), bien en deçà des 19 points nécessaires pour une médaille de bronze. Les autres modèles ont été significativement moins performants. Une stratégie de sélection « meilleur de 32 » a été utilisée, générant et évaluant plusieurs réponses par problème, ce qui a considérablement augmenté le coût de calcul. Malgré cela, les résultats montrent un écart important entre les LLM actuels et les performances de niveau médaille sur des problèmes mathématiques extrêmement difficiles comme ceux de l'IMO, même avec des ressources informatiques considérables. L'analyse qualitative a révélé des problèmes tels que des modèles citant des théorèmes inexistants et fournissant des réponses trop concises.