Hazy Research 发布了 ThunderKittens 的更新,带来了诸多改进,包括新的内核、演示集成、更易用的构建系统和性能提升。新内核涵盖各种操作,例如Fused Mamba-2、长卷积、线性注意力、Rope、LayerNorm和线性层,性能均有提升。同时增加了对Llama3 8B、Qwen 2.5 7B等模型的支持,并提供了nanoGPT和PyTorch Lightning的训练集成示例。ThunderKittens 的易用性也得到改善,新增了自动内存管理、全局布局描述符和更广泛的类型支持。此外,还发布了一系列注意力内核,性能超越FA3,尤其是在反向传播方面。