Hazy Research 发布了 ThunderKittens 的更新,带来了诸多改进,包括新的内核、演示集成、更易用的构建系统和性能提升。新内核涵盖各种操作,例如Fused Mamba-2、长卷积、线性注意力、Rope、LayerNorm和线性层,性能均有提升。同时增加了对Llama3 8B、Qwen 2.5 7B等模型的支持,并提供了nanoGPT和PyTorch Lightning的训练集成示例。ThunderKittens 的易用性也得到改善,新增了自动内存管理、全局布局描述符和更广泛的类型支持。此外,还发布了一系列注意力内核,性能超越FA3,尤其是在反向传播方面。
这篇文章深入探讨了如何最大化利用NVIDIA H100 GPU的计算能力,特别是关注如何“让GPU嗡嗡作响”。作者详细介绍了H100的硬件特性,包括张量核心、共享内存、地址生成和占用率等关键因素,并指出了优化这些因素以提高GPU利用率的技巧。作者还发布了一个名为ThunderKittens的嵌入式DSL,用于简化高效内核的编写,并展示了如何利用ThunderKittens来实现高性能的Flash Attention和Based线性注意力内核。文章最后提出了一个哲学观点,即人工智能的未来发展方向应该与硬件架构更加紧密地结合,以实现最佳的计算效率。