TPI-LLM:在低资源边缘设备上高效服务 70B 级 LLM

2024-10-03

TPI-LLM是一种计算和内存高效的张量并行推理系统,旨在在低资源边缘设备上高效地服务于70B级的LLM。它通过将敏感的原始数据保存在用户的设备上,并引入滑动窗口内存调度器来动态管理推理过程中的层权重,从而解决了边缘设备计算能力、内存和带宽有限的问题。TPI-LLM还通过实现基于星形的allreduce算法来缓解通信瓶颈,并通过与计算和通信重叠的磁盘I/O延迟来实现。

27
未分类 张量并行