Putnam-AXIOM:挑战LLM数学推理能力的新基准

2025-01-01
Putnam-AXIOM:挑战LLM数学推理能力的新基准

研究人员发布了Putnam-AXIOM基准测试,这是一个由236道来自普特南数学竞赛的难题组成的集合,用于评估大型语言模型(LLM)的高级数学推理能力。为了防止数据污染,他们还创建了Putnam-AXIOM Variation,包含52道问题的变体。结果显示,即使是表现最好的模型,在变体问题上的准确率也比原题低30%左右,揭示了LLM在数学推理方面仍有巨大提升空间。

阅读更多
AI

视觉Transformer需要寄存器

2024-05-11
视觉Transformer需要寄存器

这篇文章指出,视觉Transformer (ViT) 的特征图中存在人为现象,表现为高范数的特征主要出现在图像信息量低的背景区域。文章提出了一种简单有效的解决方案:在ViT的输入序列中添加额外的特征(“寄存器”),用于填充这些高范数特征,从而修复该问题。实验结果表明,该方案可以修复监督和自监督模型中的问题,并在密集视觉预测任务中为自监督视觉模型设定了新的技术水平。

阅读更多