RLT：使用游程长度标记化实现更快的视频Transformer

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

RLT：使用游程长度标记化实现更快的视频Transformer

2024-11-17

RLT（游程长度标记化）是一种通过移除冗余标记来加速视频Transformer的有效方法。它在模型运行前识别并移除重复的令牌，用单个令牌和位置编码表示其新的长度。这种方法无需针对不同数据集进行调整，并且开销极小。RLT可以提高预训练Transformer的吞吐量，在动作识别中，吞吐量提高40%，精度仅下降0.1%。它还可以显著加快训练速度，将视频Transformer的微调时间缩短40%以上，同时保持基线模型的性能。RLT在视频语言任务中也有类似的优势，在Epic Kitchens-100多实例检索中，它在保持基线性能的同时，将训练时间和吞吐量减少了30%。

(rccchoudhury.github.io)

未分类视频Transformer RLT 游程长度标记化

Go语言中的约束

数值例程的单元测试