EM-LLM:赋予大型语言模型无限上下文能力的类人记忆机制
EM-LLM 是一种新型架构,它通过模仿人类情景记忆和事件认知,显著提升了大型语言模型处理超长文本的能力。该模型无需微调,就能将输入文本序列组织成连贯的情景事件,并通过高效的两阶段记忆检索机制访问相关信息。在 LongBench 和 ∞-Bench 基准测试中,EM-LLM 的性能超越了现有最先进的检索模型 InfLLM 和 RAG,甚至在大多数任务中优于全上下文模型,成功处理了 1000 万个 token 的检索任务,这对于全上下文模型来说是计算上不可行的。EM-LLM 的事件分割与人类感知事件高度相关,为探索人类记忆机制提供了新的计算框架。