单核大战:突破LLM推理速度瓶颈
2025-05-28
为了提升大型语言模型(LLM)在低延迟应用(如聊天机器人)中的响应速度,研究人员开发了一种名为“巨型内核”的技术。该技术将Llama-1B模型的前向传递融合到单个内核中,消除了传统多内核方法中存在的内核边界开销和内存管道阻塞问题。实验结果显示,该方法在H100和B200 GPU上显著提高了推理速度,比现有系统快1.5倍以上,实现了更低的延迟。
AI
低延迟推理