Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

PowerInfer-2: 在智能手机上快速推理大型语言模型

2024-06-12

PowerInfer-2是一个专为在智能手机上快速推理大型语言模型（LLM）而设计的框架，特别是针对模型大小超过设备内存容量的情况。该框架利用智能手机中的异构计算、内存和I/O资源，将传统的矩阵计算分解成细粒度的“神经元簇”计算，并通过分段神经元缓存和细粒度神经元-集群级流水线技术，最大限度地减少和掩盖I/O操作造成的开销。PowerInfer-2能够在两款智能手机上支持各种LLM模型，与最先进的框架相比，速度提高了29.2倍。

(arxiv.org)

未分类推理框架