大型语言模型的长对话灾难性失败:注意力汇点与StreamingLLM

2025-08-09

研究人员发现大型语言模型在长对话中灾难性失败的原因是:为了节省内存而移除旧的token会导致模型产生完全无意义的输出。他们发现模型会将大量注意力集中在最初几个token上,将其作为“注意力汇点”——因为softmax函数要求权重之和为1,所以这是存放未用注意力的位置。他们的解决方案StreamingLLM,简单地永久保留这最初的4个token,同时滑动其他所有token的窗口,使得能够稳定地处理超过400万个token,而不是仅仅几千个。此机制现已集成到HuggingFace、NVIDIA TensorRT-LLM和OpenAI的最新模型中。OpenAI的开源模型GPT-OSS也使用了类似的注意力汇点机制,这证明了该研究成果的实际应用价值。