Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

大型语言模型在IMO 2025竞赛中的表现：远未达到奖牌水平

2025-07-19

研究人员使用MathArena平台评估了五种最先进的大型语言模型（LLM）在2025年国际数学奥林匹克竞赛（IMO）中的解题能力。结果显示，Gemini 2.5 Pro表现最佳，但其得分仅为31%（13分），远低于获得铜牌所需的19分。其他模型表现更差。研究使用了最佳-n选择策略，为每个问题生成32个答案，然后通过LLM评判筛选出最佳答案，这极大地增加了计算成本。尽管如此，结果表明，当前的LLM在解决IMO这种高难度数学问题方面仍然存在很大差距，即使在大量计算资源的投入下也未能达到奖牌水平。研究还对模型的错误类型进行了定性分析，发现一些模型存在诸如引用不存在的定理、答案过于简短等问题。

MathArena：对大型语言模型数学能力的严格评估平台

2025-04-02

MathArena是一个评估大型语言模型（LLM）在最新数学竞赛和奥林匹克竞赛中表现的平台。它通过在模型发布后进行的竞赛中测试模型，避免了对可能泄露或预训练材料的追溯评估，确保评估的公平性和完整性。平台公布每个竞赛的排行榜，显示不同模型在各个问题上的得分，并提供一个主表，包含模型在所有竞赛中的表现。每个问题运行每个模型4次，计算平均得分和模型成本（美元）。其评估代码已开源：https://github.com/eth-sri/matharena。