Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

大型语言模型的长对话灾难性失败：注意力汇点与StreamingLLM

2025-08-09

研究人员发现大型语言模型在长对话中灾难性失败的原因是：为了节省内存而移除旧的token会导致模型产生完全无意义的输出。他们发现模型会将大量注意力集中在最初几个token上，将其作为“注意力汇点”——因为softmax函数要求权重之和为1，所以这是存放未用注意力的位置。他们的解决方案StreamingLLM，简单地永久保留这最初的4个token，同时滑动其他所有token的窗口，使得能够稳定地处理超过400万个token，而不是仅仅几千个。此机制现已集成到HuggingFace、NVIDIA TensorRT-LLM和OpenAI的最新模型中。OpenAI的开源模型GPT-OSS也使用了类似的注意力汇点机制，这证明了该研究成果的实际应用价值。

(hanlab.mit.edu)

AI StreamingLLM