大型语言模型在IMO 2025竞赛中的表现:远未达到奖牌水平

2025-07-19

研究人员使用MathArena平台评估了五种最先进的大型语言模型(LLM)在2025年国际数学奥林匹克竞赛(IMO)中的解题能力。结果显示,Gemini 2.5 Pro表现最佳,但其得分仅为31%(13分),远低于获得铜牌所需的19分。其他模型表现更差。研究使用了最佳-n选择策略,为每个问题生成32个答案,然后通过LLM评判筛选出最佳答案,这极大地增加了计算成本。尽管如此,结果表明,当前的LLM在解决IMO这种高难度数学问题方面仍然存在很大差距,即使在大量计算资源的投入下也未能达到奖牌水平。研究还对模型的错误类型进行了定性分析,发现一些模型存在诸如引用不存在的定理、答案过于简短等问题。