大型语言模型(LLM)虽然功能越来越强大,但体积和能耗也在不断增加。为解决这个问题,研究人员正在探索将存储在 LLM 中的大量高精度数字简化为 1 或 -1 的方法,即 1 位 LLM。目前主要有两种方法:训练后量化(PTQ)和量化感知训练(QAT)。PTQ 将已训练模型的参数量化,而 QAT 从一开始就以低精度参数训练模型。研究表明,1 位 LLM 在性能接近全精度模型的同时,能耗更低,速度更快,有望运行在手机等设备上。