Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

Mirage Persistent Kernel：超高速推論のためのLLMを単一メガカーネルにコンパイル

2025-06-19

CMU、UW、バークレー、NVIDIA、清華大学の研究者らが、Mirage Persistent Kernel（MPK）を開発しました。これは、マルチGPU大規模言語モデル（LLM）の推論を、高性能なメガカーネルに自動的に変換するコンパイラとランタイムシステムです。すべての計算と通信を単一のカーネルに融合させることで、MPKはカーネル起動オーバーヘッドを排除し、計算と通信をオーバーラップさせることで、LLM推論のレイテンシを大幅に削減します。実験により、シングルGPUとマルチGPUの両方の構成において、顕著な性能向上を示し、特にマルチGPU環境でその利点が際立ちます。今後の研究では、次世代GPUアーキテクチャのサポートと、動的なワークロードの処理に焦点を当てています。