Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Mooncake: 一种以 KVCache 为中心的 LLM 服务分解架构

2024-06-29

Mooncake 是 Moonshot AI 提供的一种领先的 LLM 服务 Kimi 的服务平台。它采用以 KVCache 为中心的分解架构，将预填充和解码集群分离，并利用 GPU 集群未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。Mooncake 的核心是以 KVCache 为中心的调度程序，它在满足与延迟相关的服务水平目标 (SLO) 要求的同时，平衡了最大化整体有效吞吐量。实验表明，Mooncake 在长上下文场景中表现出色，与基线方法相比，在某些模拟场景中，Mooncake 的吞吐量提高了 525%，同时仍能遵守 SLO。

(github.com)

未分类 KVCache