大型语言模型在IMO 2025竞赛中的表现:远未达到奖牌水平

2025-07-19

研究人员使用MathArena平台评估了五种最先进的大型语言模型(LLM)在2025年国际数学奥林匹克竞赛(IMO)中的解题能力。结果显示,Gemini 2.5 Pro表现最佳,但其得分仅为31%(13分),远低于获得铜牌所需的19分。其他模型表现更差。研究使用了最佳-n选择策略,为每个问题生成32个答案,然后通过LLM评判筛选出最佳答案,这极大地增加了计算成本。尽管如此,结果表明,当前的LLM在解决IMO这种高难度数学问题方面仍然存在很大差距,即使在大量计算资源的投入下也未能达到奖牌水平。研究还对模型的错误类型进行了定性分析,发现一些模型存在诸如引用不存在的定理、答案过于简短等问题。

阅读更多

MathArena:对大型语言模型数学能力的严格评估平台

2025-04-02

MathArena是一个评估大型语言模型(LLM)在最新数学竞赛和奥林匹克竞赛中表现的平台。它通过在模型发布后进行的竞赛中测试模型,避免了对可能泄露或预训练材料的追溯评估,确保评估的公平性和完整性。平台公布每个竞赛的排行榜,显示不同模型在各个问题上的得分,并提供一个主表,包含模型在所有竞赛中的表现。每个问题运行每个模型4次,计算平均得分和模型成本(美元)。其评估代码已开源:https://github.com/eth-sri/matharena。

阅读更多
AI