这篇文章指出,视觉Transformer (ViT) 的特征图中存在人为现象,表现为高范数的特征主要出现在图像信息量低的背景区域。文章提出了一种简单有效的解决方案:在ViT的输入序列中添加额外的特征(“寄存器”),用于填充这些高范数特征,从而修复该问题。实验结果表明,该方案可以修复监督和自监督模型中的问题,并在密集视觉预测任务中为自监督视觉模型设定了新的技术水平。