メガカーネル：LLM推論のレイテンシを打破

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

メガカーネル：LLM推論のレイテンシを打破

2025-05-28

チャットボットなどの低レイテンシアプリケーションにおける大規模言語モデル（LLM）の速度向上のため、研究者らは「メガカーネル」技術を開発しました。これはLlama-1Bモデルの順伝播を単一カーネルに融合することで、従来の複数カーネルアプローチに見られるカーネル境界オーバーヘッドとメモリパイプラインストールを排除します。その結果、H100およびB200 GPUにおいて、既存システムを1.5倍以上上回る大幅な速度向上と、劇的に低いレイテンシが実現されました。

(hazyresearch.stanford.edu)

AI 低レイテンシ推論

ナノ粒子細胞インターフェースによる哺乳類トランスジーン発現の電磁気的ワイヤレスプログラミング

Michael Larabel：20年にわたるLinuxハードウェアベンチマークの軌跡