RLT:使用游程长度标记化实现更快的视频Transformer

2024-11-17

RLT(游程长度标记化)是一种通过移除冗余标记来加速视频Transformer的有效方法。它在模型运行前识别并移除重复的令牌,用单个令牌和位置编码表示其新的长度。这种方法无需针对不同数据集进行调整,并且开销极小。RLT可以提高预训练Transformer的吞吐量,在动作识别中,吞吐量提高40%,精度仅下降0.1%。它还可以显著加快训练速度,将视频Transformer的微调时间缩短40%以上,同时保持基线模型的性能。RLT在视频语言任务中也有类似的优势,在Epic Kitchens-100多实例检索中,它在保持基线性能的同时,将训练时间和吞吐量减少了30%。