Mirage Persistent Kernel:将LLM推理编译成单一巨型内核

2025-06-19
Mirage Persistent Kernel:将LLM推理编译成单一巨型内核

卡内基梅隆大学、华盛顿大学、伯克利大学、英伟达和清华大学的研究人员开发了Mirage Persistent Kernel (MPK),这是一个编译器和运行时系统,可以自动将多GPU大型语言模型(LLM)推理转换为高性能的巨型内核。通过将所有计算和通信融合到单个内核中,MPK消除了内核启动开销,实现了计算和通信的重叠,从而显著降低了LLM推理的延迟。实验结果表明,MPK在单GPU和多GPU配置下均能显著提高性能,特别是在多GPU场景下优势更加明显。未来,研究团队计划扩展MPK以支持最新的GPU架构,并处理动态工作负载。

阅读更多