LLM推理后端性能基准测试：vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 TGI

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

LLM推理后端性能基准测试：vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 TGI

2024-07-06

本文对不同的LLM推理后端（vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 Hugging Face TGI）进行了全面的基准测试，评估指标包括首个token时间（TTFT）和token生成速率。测试结果表明，对于Llama 3 8B模型，LMDeploy在所有用户负载下均表现出色，而vLLM则在低延迟场景中表现出色；对于Llama 3 70B Q4模型，LMDeploy在低延迟和高吞吐量方面均表现最佳，而TensorRT-LLM在吞吐量方面与LMDeploy相当。文章还分析了不同后端的优缺点，并为选择合适的推理后端提供了建议。

(www.bentoml.com)

未分类推理后端

今日生成式 AI 短板：Token 惹的祸？

Fabric：利用人工智能增强人类能力的开源框架