Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2025-01-01

研究人员发布了Putnam-AXIOM基准测试，这是一个由236道来自普特南数学竞赛的难题组成的集合，用于评估大型语言模型（LLM）的高级数学推理能力。为了防止数据污染，他们还创建了Putnam-AXIOM Variation，包含52道问题的变体。结果显示，即使是表现最好的模型，在变体问题上的准确率也比原题低30%左右，揭示了LLM在数学推理方面仍有巨大提升空间。

视觉Transformer需要寄存器

2024-05-11

这篇文章指出，视觉Transformer (ViT) 的特征图中存在人为现象，表现为高范数的特征主要出现在图像信息量低的背景区域。文章提出了一种简单有效的解决方案：在ViT的输入序列中添加额外的特征（“寄存器”），用于填充这些高范数特征，从而修复该问题。实验结果表明，该方案可以修复监督和自监督模型中的问题，并在密集视觉预测任务中为自监督视觉模型设定了新的技术水平。

Putnam-AXIOM：挑战LLM数学推理能力的新基准

视觉Transformer需要寄存器