Putnam-AXIOM：挑战LLM数学推理能力的新基准

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Putnam-AXIOM：挑战LLM数学推理能力的新基准

2025-01-01

研究人员发布了Putnam-AXIOM基准测试，这是一个由236道来自普特南数学竞赛的难题组成的集合，用于评估大型语言模型（LLM）的高级数学推理能力。为了防止数据污染，他们还创建了Putnam-AXIOM Variation，包含52道问题的变体。结果显示，即使是表现最好的模型，在变体问题上的准确率也比原题低30%左右，揭示了LLM在数学推理方面仍有巨大提升空间。

(openreview.net)

Mastodon 网页应用 JavaScript 启用提示

Notion：你的笔记、任务、Wiki 和数据库一体化工作区