PowerInfer-2: 在智能手机上快速推理大型语言模型
PowerInfer-2是一个专为在智能手机上快速推理大型语言模型(LLM)而设计的框架,特别是针对模型大小超过设备内存容量的情况。该框架利用智能手机中的异构计算、内存和I/O资源,将传统的矩阵计算分解成细粒度的“神经元簇”计算,并通过分段神经元缓存和细粒度神经元-集群级流水线技术,最大限度地减少和掩盖I/O操作造成的开销。PowerInfer-2能够在两款智能手机上支持各种LLM模型,与最先进的框架相比,速度提高了29.2倍。
阅读更多