视觉Transformer需要寄存器

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

视觉Transformer需要寄存器

2024-05-11

这篇文章指出，视觉Transformer (ViT) 的特征图中存在人为现象，表现为高范数的特征主要出现在图像信息量低的背景区域。文章提出了一种简单有效的解决方案：在ViT的输入序列中添加额外的特征（“寄存器”），用于填充这些高范数特征，从而修复该问题。实验结果表明，该方案可以修复监督和自监督模型中的问题，并在密集视觉预测任务中为自监督视觉模型设定了新的技术水平。

(openreview.net)

未分类寄存器自监督学习

NASA公布在月球上建造磁悬浮机器人列车的计划

十万颗星