Grokfast:通过放大慢梯度加速 Grokking

2024-06-03

这篇文章介绍了一种名为 Grokfast 的新算法,该算法能够加速机器学习模型中的 Grokking 现象,即模型在训练数据上过度拟合后很久才实现泛化。Grokfast 通过将参数梯度的时间序列视为随机信号,并将其分解为快速变化的过拟合分量和缓慢变化的泛化分量。通过放大缓慢变化的梯度分量,Grokfast 可以将 Grokking 现象加速50倍以上。实验证明,Grokfast 算法适用于图像、语言和图等多种任务。

46
未分类 Grokking