类GPT模型的长卷积:多项式、快速傅里叶变换和因果关系
本文探讨了类GPT模型中长卷积的应用,并解释了其高效计算方法。文章将卷积运算与多项式乘法联系起来,并利用快速傅里叶变换(FFT)实现高效计算。同时,强调了因果关系在实现类似GPT模型中的单向性(从左到右预测)的重要性,并讨论了不同卷积操作(例如,使序列更长、截断或循环卷积)对序列长度和模型行为的影响。
阅读更多
本文探讨了类GPT模型中长卷积的应用,并解释了其高效计算方法。文章将卷积运算与多项式乘法联系起来,并利用快速傅里叶变换(FFT)实现高效计算。同时,强调了因果关系在实现类似GPT模型中的单向性(从左到右预测)的重要性,并讨论了不同卷积操作(例如,使序列更长、截断或循环卷积)对序列长度和模型行为的影响。
阅读更多
Hazy Research 发布了 ThunderKittens 的更新,带来了诸多改进,包括新的内核、演示集成、更易用的构建系统和性能提升。新内核涵盖各种操作,例如Fused Mamba-2、长卷积、线性注意力、Rope、LayerNorm和线性层,性能均有提升。同时增加了对Llama3 8B、Qwen 2.5 7B等模型的支持,并提供了nanoGPT和PyTorch Lightning的训练集成示例。ThunderKittens 的易用性也得到改善,新增了自动内存管理、全局布局描述符和更广泛的类型支持。此外,还发布了一系列注意力内核,性能超越FA3,尤其是在反向传播方面。
阅读更多
这篇文章深入探讨了如何最大化利用NVIDIA H100 GPU的计算能力,特别是关注如何“让GPU嗡嗡作响”。作者详细介绍了H100的硬件特性,包括张量核心、共享内存、地址生成和占用率等关键因素,并指出了优化这些因素以提高GPU利用率的技巧。作者还发布了一个名为ThunderKittens的嵌入式DSL,用于简化高效内核的编写,并展示了如何利用ThunderKittens来实现高性能的Flash Attention和Based线性注意力内核。文章最后提出了一个哲学观点,即人工智能的未来发展方向应该与硬件架构更加紧密地结合,以实现最佳的计算效率。
阅读更多