视觉Transformer需要寄存器

视觉Transformer需要寄存器 (openreview.net)

原文: Vision Transformers Need Registers | OpenReview

这篇文章指出，视觉Transformer (ViT) 的特征图中存在人为现象，表现为高范数的特征主要出现在图像信息量低的背景区域。文章提出了一种简单有效的解决方案：在ViT的输入序列中添加额外的特征（“寄存器”），用于填充这些高范数特征，从而修复该问题。实验结果表明，该方案可以修复监督和自监督模型中的问题，并在密集视觉预测任务中为自监督视觉模型设定了新的技术水平。

寄存器

自监督学习

上一篇: NASA公布在月球上建造磁悬浮机器人列车的计划

下一篇: 十万颗星

评论已经关闭！

返回首页