llm-d：Kubernetes原生分布式推理平台

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

llm-d：Kubernetes原生分布式推理平台

2025-05-21

llm-d是一个基于Kubernetes的原生分布式推理服务栈，旨在高效、经济地服务大型语言模型。它利用最新的分布式推理优化技术，例如KV缓存感知路由和解耦服务，并与Inference Gateway（IGW）中的Kubernetes操作工具集成。llm-d构建于vLLM、Kubernetes和Inference Gateway等开源技术之上，具有可定制的调度、解耦服务和缓存等特性，并计划实现基于硬件、工作负载和流量的自动扩展。用户可以通过Helm chart轻松安装，并可单独使用其组件进行实验。

(github.com)

开发分布式推理

Final Cut Pro 插件 TitleBridge 系统需求及隐私政策

DictionaryGames：一款让你爱恨交加的词汇学习应用