メガカーネル:LLM推論のレイテンシを打破
2025-05-28

チャットボットなどの低レイテンシアプリケーションにおける大規模言語モデル(LLM)の速度向上のため、研究者らは「メガカーネル」技術を開発しました。これはLlama-1Bモデルの順伝播を単一カーネルに融合することで、従来の複数カーネルアプローチに見られるカーネル境界オーバーヘッドとメモリパイプラインストールを排除します。その結果、H100およびB200 GPUにおいて、既存システムを1.5倍以上上回る大幅な速度向上と、劇的に低いレイテンシが実現されました。
AI
低レイテンシ推論