SeedLM:基于伪随机数生成器的LLM权重压缩方法

2025-04-06
SeedLM:基于伪随机数生成器的LLM权重压缩方法

大型语言模型(LLM)运行成本高昂,限制了其广泛部署。Meta研究人员提出了一种名为SeedLM的新型后训练压缩方法,该方法利用伪随机数生成器的种子来编码和压缩模型权重。SeedLM在推理过程中利用线性反馈移位寄存器(LFSR)高效生成随机矩阵,并将其与压缩系数线性组合来重建权重块,从而减少内存访问并利用空闲计算周期,有效加速内存受限任务。与依赖校准数据的方法不同,SeedLM无需数据,并在不同任务中具有良好的泛化能力。实验表明,SeedLM在Llama 3 70B模型上的4位和3位压缩下,零样本精度与现有最先进方法相当甚至更好,性能也与FP16基线相当。FPGA测试进一步表明,随着模型规模的增加,4位SeedLM的速度提升可达FP16 Llama 2/3基线的4倍。

AI SeedLM