SVDQuant:精准的 4 位量化技术助力 12B FLUX 在 16GB 4090 笔记本电脑上实现 3 倍加速

2024-11-09

SVDQuant 是一种新的后训练量化范式,可将 FLUX 的权重和激活量化到 1 至 4 位,在 16GB 4090 笔记本电脑上实现 3.5 倍内存减少和 8.7 倍延迟降低。与传统的仅量化权重的方法不同,SVDQuant 通过引入低秩分支来吸收量化带来的异常值,从而保持视觉保真度。配合优化的推理引擎 Nunchaku,SVDQuant 在 12B FLUX.1-dev 模型上实现了 3.6 倍的内存减少和 3 倍的推理加速,同时质量超越其他 4 位量化方法。

未分类