TPI-LLM：在低资源边缘设备上高效服务 70B 级 LLM

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

TPI-LLM：在低资源边缘设备上高效服务 70B 级 LLM

2024-10-03

TPI-LLM是一种计算和内存高效的张量并行推理系统，旨在在低资源边缘设备上高效地服务于70B级的LLM。它通过将敏感的原始数据保存在用户的设备上，并引入滑动窗口内存调度器来动态管理推理过程中的层权重，从而解决了边缘设备计算能力、内存和带宽有限的问题。TPI-LLM还通过实现基于星形的allreduce算法来缓解通信瓶颈，并通过与计算和通信重叠的磁盘I/O延迟来实现。

(arxiv.org)

未分类张量并行

舞蹈训练在老年人大脑可塑性方面优于重复性体育锻炼

LG化学开发出能够抑制电池热失控的材料