Putnam-AXIOM:挑战LLM数学推理能力的新基准
2025-01-01

研究人员发布了Putnam-AXIOM基准测试,这是一个由236道来自普特南数学竞赛的难题组成的集合,用于评估大型语言模型(LLM)的高级数学推理能力。为了防止数据污染,他们还创建了Putnam-AXIOM Variation,包含52道问题的变体。结果显示,即使是表现最好的模型,在变体问题上的准确率也比原题低30%左右,揭示了LLM在数学推理方面仍有巨大提升空间。
AI