Mooncake 是 Moonshot AI 提供的一种领先的 LLM 服务 Kimi 的服务平台。它采用以 KVCache 为中心的分解架构,将预填充和解码集群分离,并利用 GPU 集群未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。Mooncake 的核心是以 KVCache 为中心的调度程序,它在满足与延迟相关的服务水平目标 (SLO) 要求的同时,平衡了最大化整体有效吞吐量。实验表明,Mooncake 在长上下文场景中表现出色,与基线方法相比,在某些模拟场景中,Mooncake 的吞吐量提高了 525%,同时仍能遵守 SLO。