QB64 搜索技巧 核手提箱 文字记录 海洋云增白 开源地图 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 世界 PostgreSQL AI工具 证券 DirectX 防溢 DrawingPics Zulip 儿童读物 化学 连续滚动 代码审查 三菱电机 更多

PowerInfer-2: 在智能手机上快速推理大型语言模型 (arxiv.org)

PowerInfer-2是一个专为在智能手机上快速推理大型语言模型(LLM)而设计的框架,特别是针对模型大小超过设备内存容量的情况。该框架利用智能手机中的异构计算、内存和I/O资源,将传统的矩阵计算分解成细粒度的“神经元簇”计算,并通过分段神经元缓存和细粒度神经元-集群级流水线技术,最大限度地减少和掩盖I/O操作造成的开销。PowerInfer-2能够在两款智能手机上支持各种LLM模型,与最先进的框架相比,速度提高了29.2倍。