Meta发布了首批轻量级量化 Llama 模型,这些模型体积小、性能高,可以在许多流行的移动设备上运行。这些模型采用与原始 1B 和 3B 模型相同的质量和安全要求,同时速度提高了 2-4 倍,模型大小平均减少了 56%,内存使用量平均减少了 41%。Meta 使用了两种量化技术:注重精度的 LoRA 适配器量化感知训练和注重可移植性的尖端训练后量化方法 SpinQuant。