TPI-LLM：在低资源边缘设备上高效服务 70B 级 LLM

TPI-LLM：在低资源边缘设备上高效服务 70B 级 LLM (arxiv.org)

原文: [2410.00531] TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

TPI-LLM是一种计算和内存高效的张量并行推理系统，旨在在低资源边缘设备上高效地服务于70B级的LLM。它通过将敏感的原始数据保存在用户的设备上，并引入滑动窗口内存调度器来动态管理推理过程中的层权重，从而解决了边缘设备计算能力、内存和带宽有限的问题。TPI-LLM还通过实现基于星形的allreduce算法来缓解通信瓶颈，并通过与计算和通信重叠的磁盘I/O延迟来实现。

张量并行

上一篇: 舞蹈训练在老年人大脑可塑性方面优于重复性体育锻炼

下一篇: LG化学开发出能够抑制电池热失控的材料

评论已经关闭！

返回首页