单核大战：突破LLM推理速度瓶颈

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

单核大战：突破LLM推理速度瓶颈

2025-05-28

为了提升大型语言模型（LLM）在低延迟应用（如聊天机器人）中的响应速度，研究人员开发了一种名为“巨型内核”的技术。该技术将Llama-1B模型的前向传递融合到单个内核中，消除了传统多内核方法中存在的内核边界开销和内存管道阻塞问题。实验结果显示，该方法在H100和B200 GPU上显著提高了推理速度，比现有系统快1.5倍以上，实现了更低的延迟。

(hazyresearch.stanford.edu)

AI 低延迟推理

无需手术的基因表达无线控制：纳米粒子开启精准医疗新篇章

Phoronix创始人Michael Larabel：二十年Linux硬件性能测试传奇