Webtagr - 科技资讯摘要

大型语言模型的长对话灾难性失败：注意力汇点与StreamingLLM

2025-08-09

研究人员发现大型语言模型在长对话中灾难性失败的原因是：为了节省内存而移除旧的token会导致模型产生完全无意义的输出。他们发现模型会将大量注意力集中在最初几个token上，将其作为“注意力汇点”——因为softmax函数要求权重之和为1，所以这是存放未用注意力的位置。他们的解决方案StreamingLLM，简单地永久保留这最初的4个token，同时滑动其他所有token的窗口，使得能够稳定地处理超过400万个token，而不是仅仅几千个。此机制现已集成到HuggingFace、NVIDIA TensorRT-LLM和OpenAI的最新模型中。OpenAI的开源模型GPT-OSS也使用了类似的注意力汇点机制，这证明了该研究成果的实际应用价值。

(hanlab.mit.edu)

AI StreamingLLM

SVDQuant：利用NVFP4在Blackwell架构GPU上实现3倍加速

2025-02-22

麻省理工学院的研究人员开发了SVDQuant，这是一种新的4位量化范式，它利用低秩分支来吸收异常值，从而在NVIDIA Blackwell架构的GPU上实现显著的性能提升。在NVFP4格式下，SVDQuant在图像质量上优于INT4，并实现了比BF16快3倍的速度，内存使用减少3.5倍。该研究成果已开源，并提供交互式演示。

(hanlab.mit.edu)

AI AI加速

SVDQuant：精准的 4 位量化技术助力 12B FLUX 在 16GB 4090 笔记本电脑上实现 3 倍加速

2024-11-09

SVDQuant 是一种新的后训练量化范式，可将 FLUX 的权重和激活量化到 1 至 4 位，在 16GB 4090 笔记本电脑上实现 3.5 倍内存减少和 8.7 倍延迟降低。与传统的仅量化权重的方法不同，SVDQuant 通过引入低秩分支来吸收量化带来的异常值，从而保持视觉保真度。配合优化的推理引擎 Nunchaku，SVDQuant 在 12B FLUX.1-dev 模型上实现了 3.6 倍的内存减少和 3 倍的推理加速，同时质量超越其他 4 位量化方法。

(hanlab.mit.edu)

26

未分类