PowerInfer-2: 在智能手机上快速推理大型语言模型

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

PowerInfer-2: 在智能手机上快速推理大型语言模型

2024-06-12

PowerInfer-2是一个专为在智能手机上快速推理大型语言模型（LLM）而设计的框架，特别是针对模型大小超过设备内存容量的情况。该框架利用智能手机中的异构计算、内存和I/O资源，将传统的矩阵计算分解成细粒度的“神经元簇”计算，并通过分段神经元缓存和细粒度神经元-集群级流水线技术，最大限度地减少和掩盖I/O操作造成的开销。PowerInfer-2能够在两款智能手机上支持各种LLM模型，与最先进的框架相比，速度提高了29.2倍。

(arxiv.org)

未分类推理框架

马丁贝克弹射座椅75年前首次挽救生命，迄今已累计挽救7722人

Adobe 更新服务条款：承诺不会利用客户作品训练人工智能