Webtagr - 科技资讯摘要

类GPT模型的长卷积：多项式、快速傅里叶变换和因果关系

2024-12-10

本文探讨了类GPT模型中长卷积的应用，并解释了其高效计算方法。文章将卷积运算与多项式乘法联系起来，并利用快速傅里叶变换（FFT）实现高效计算。同时，强调了因果关系在实现类似GPT模型中的单向性（从左到右预测）的重要性，并讨论了不同卷积操作（例如，使序列更长、截断或循环卷积）对序列长度和模型行为的影响。

(hazyresearch.stanford.edu)

6

未分类长卷积

更轻松、更好、更快、更可爱：Hazy Research 发布 ThunderKittens 更新

2024-10-30

Hazy Research 发布了 ThunderKittens 的更新，带来了诸多改进，包括新的内核、演示集成、更易用的构建系统和性能提升。新内核涵盖各种操作，例如Fused Mamba-2、长卷积、线性注意力、Rope、LayerNorm和线性层，性能均有提升。同时增加了对Llama3 8B、Qwen 2.5 7B等模型的支持，并提供了nanoGPT和PyTorch Lightning的训练集成示例。ThunderKittens 的易用性也得到改善，新增了自动内存管理、全局布局描述符和更广泛的类型支持。此外，还发布了一系列注意力内核，性能超越FA3，尤其是在反向传播方面。

(hazyresearch.stanford.edu)

22

未分类

GPU加速：深入理解硬件以优化人工智能计算

2024-05-12

这篇文章深入探讨了如何最大化利用NVIDIA H100 GPU的计算能力，特别是关注如何“让GPU嗡嗡作响”。作者详细介绍了H100的硬件特性，包括张量核心、共享内存、地址生成和占用率等关键因素，并指出了优化这些因素以提高GPU利用率的技巧。作者还发布了一个名为ThunderKittens的嵌入式DSL，用于简化高效内核的编写，并展示了如何利用ThunderKittens来实现高性能的Flash Attention和Based线性注意力内核。文章最后提出了一个哲学观点，即人工智能的未来发展方向应该与硬件架构更加紧密地结合，以实现最佳的计算效率。

(hazyresearch.stanford.edu)

74

未分类硬件加速