本文分析了谷歌DeepMind论文“Scaling Exponents Across Parameterizations and Optimizers”中进行的所有实验,计算了复制该论文所需的总计算成本。作者详细分析了不同类型实验的计算量,包括对齐实验、学习率实验、Adam Epsilon实验等,并估算了每种实验所需的H100 GPU小时数。最终得出结论:该论文总共需要大约5.42e24 FLOPs,相当于1290万美元的H100租用费用,或747个H100节点月的计算时间。