这篇文章深入探讨了如何最大化利用NVIDIA H100 GPU的计算能力,特别是关注如何“让GPU嗡嗡作响”。作者详细介绍了H100的硬件特性,包括张量核心、共享内存、地址生成和占用率等关键因素,并指出了优化这些因素以提高GPU利用率的技巧。作者还发布了一个名为ThunderKittens的嵌入式DSL,用于简化高效内核的编写,并展示了如何利用ThunderKittens来实现高性能的Flash Attention和Based线性注意力内核。文章最后提出了一个哲学观点,即人工智能的未来发展方向应该与硬件架构更加紧密地结合,以实现最佳的计算效率。