大型语言模型的长对话灾难性失败:注意力汇点与StreamingLLM

2025-08-09

研究人员发现大型语言模型在长对话中灾难性失败的原因是:为了节省内存而移除旧的token会导致模型产生完全无意义的输出。他们发现模型会将大量注意力集中在最初几个token上,将其作为“注意力汇点”——因为softmax函数要求权重之和为1,所以这是存放未用注意力的位置。他们的解决方案StreamingLLM,简单地永久保留这最初的4个token,同时滑动其他所有token的窗口,使得能够稳定地处理超过400万个token,而不是仅仅几千个。此机制现已集成到HuggingFace、NVIDIA TensorRT-LLM和OpenAI的最新模型中。OpenAI的开源模型GPT-OSS也使用了类似的注意力汇点机制,这证明了该研究成果的实际应用价值。

阅读更多

SVDQuant:精准的 4 位量化技术助力 12B FLUX 在 16GB 4090 笔记本电脑上实现 3 倍加速

2024-11-09

SVDQuant 是一种新的后训练量化范式,可将 FLUX 的权重和激活量化到 1 至 4 位,在 16GB 4090 笔记本电脑上实现 3.5 倍内存减少和 8.7 倍延迟降低。与传统的仅量化权重的方法不同,SVDQuant 通过引入低秩分支来吸收量化带来的异常值,从而保持视觉保真度。配合优化的推理引擎 Nunchaku,SVDQuant 在 12B FLUX.1-dev 模型上实现了 3.6 倍的内存减少和 3 倍的推理加速,同时质量超越其他 4 位量化方法。

阅读更多
未分类