HMT:用于长文本处理的分层记忆Transformer
2024-05-17
本文介绍了一种名为分层记忆Transformer(HMT)的新型框架,该框架通过模仿人类记忆行为来增强模型的长期文本处理能力。HMT利用记忆增强的段级递归,通过保留来自早期输入标记段的标记、沿着序列传递记忆嵌入以及从历史中回忆相关信息来组织记忆层次结构。在通用语言建模和问答任务上的评估表明,HMT 稳步提高了上下文受限模型和长文本模型的长期文本处理能力。
44
未分类
长文本