Luminal:基于搜索编译的超高性能深度学习库
2025-08-20
Luminal是一个使用基于搜索的编译技术来实现高性能的深度学习库。它核心简洁,仅包含12个基本运算符,却能支持Transformer和卷积网络等复杂模型。通过在编译时进行激进的内核融合和形状特定的内核编译,Luminal超越了传统RISC架构的局限,并能自动推导出Flash Attention等复杂重写。它采用静态编译方式,避免了运行时开销,并支持Metal和CUDA,可在Mac和Nvidia GPU上运行,已在Llama 3 8B等模型上取得显著性能提升。
开发