大型语言模型在IMO 2025竞赛中的表现：远未达到奖牌水平

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

大型语言模型在IMO 2025竞赛中的表现：远未达到奖牌水平

2025-07-19

研究人员使用MathArena平台评估了五种最先进的大型语言模型（LLM）在2025年国际数学奥林匹克竞赛（IMO）中的解题能力。结果显示，Gemini 2.5 Pro表现最佳，但其得分仅为31%（13分），远低于获得铜牌所需的19分。其他模型表现更差。研究使用了最佳-n选择策略，为每个问题生成32个答案，然后通过LLM评判筛选出最佳答案，这极大地增加了计算成本。尽管如此，结果表明，当前的LLM在解决IMO这种高难度数学问题方面仍然存在很大差距，即使在大量计算资源的投入下也未能达到奖牌水平。研究还对模型的错误类型进行了定性分析，发现一些模型存在诸如引用不存在的定理、答案过于简短等问题。

(matharena.ai)

AI 国际数学奥林匹克竞赛

5G n78频段数据记录的挑战与突破

恒星飞掠塑造了海王星外天体的奇特轨道和颜色