Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

llm-d：Kubernetes原生高性能分布式LLM推理框架

2025-05-20

llm-d是一个Kubernetes原生高性能分布式大型语言模型（LLM）推理框架，它为大规模服务LLM提供了一条清晰的路径，在大多数硬件加速器上，针对大多数模型，它具有最快的时间价值和具有竞争力的性价比。llm-d利用最新的分布式推理优化（例如，缓存感知路由和解耦服务），并与推理网关（IGW）中的Kubernetes操作工具共同设计和集成，使用户能够通过模块化、高性能的端到端服务解决方案来运行生成式AI部署。与传统的扩展方式不同，llm-d针对LLM推理的独特特性，例如高成本、非均匀请求，进行了优化，实现了更优的性能。通过缓存感知路由、任务分解和自适应扩展等技术，llm-d显著提升了吞吐量和效率，降低了延迟，并支持多种服务质量要求。

(llm-d.ai)

开发