搜索技巧 海洋云增白 开源地图 AI 搜索答案 沙丘魔堡2 压缩机站 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 PostgreSQL AI工具 证券 DirectX DrawingPics 化学 KDE 披萨农场 多动症 植物学 分析化学 Three.js 大会 残疾人学校 初创 QB64 更多

视觉Transformer需要寄存器 (openreview.net)

这篇文章指出,视觉Transformer (ViT) 的特征图中存在人为现象,表现为高范数的特征主要出现在图像信息量低的背景区域。文章提出了一种简单有效的解决方案:在ViT的输入序列中添加额外的特征(“寄存器”),用于填充这些高范数特征,从而修复该问题。实验结果表明,该方案可以修复监督和自监督模型中的问题,并在密集视觉预测任务中为自监督视觉模型设定了新的技术水平。