TorchFT:在极端故障率下实现容错训练的LLM

2025-06-27

研究人员使用TorchFT和TorchTitan在一个真实的、具有极端合成故障率的环境中训练了一个模型,以证明容错训练的可靠性和正确性。即使在1200次故障且没有检查点的情况下,训练损失仍然保持稳定。TorchFT使用全局灯塔服务器和每个副本组管理器进行实时协调,并实现了多种容错算法,例如容错HSDP和LocalSGD/DiLoCo。实验结果表明,即使在极高的故障率下,TorchFT也能有效地进行模型训练,展现了其在应对各种故障场景下的强大能力。

阅读更多

PyTorch原生架构优化: torchao

2024-10-01
PyTorch原生架构优化: torchao

torchao是一个PyTorch原生库,通过利用低比特数据类型、量化和稀疏性,使模型更快、更小。该库提供易于使用的技术工具包,涵盖推理和训练。文章重点介绍了torchao的功能,包括用于不同数据类型和稀疏布局的权重和动态激活量化、量化感知训练(QAT)、低精度计算和通信(float8)、低比特优化器以及与Huggingface transformers、diffusers、HQQ、torchtune、torchchat和SGLang等项目的集成。

阅读更多
未分类

FlexAttention:兼具PyTorch灵活性和FlashAttention性能

2024-08-08
FlexAttention:兼具PyTorch灵活性和FlashAttention性能

FlexAttention是一个新的PyTorch API,它在不损失灵活性的情况下,实现了与FlashAttention相当的性能。它允许用户通过自定义函数修改注意力分数,从而实现各种注意力机制,例如相对位置编码、ALiBi偏差、滑动窗口注意力、前缀语言模型和文档掩码。FlexAttention利用torch.compile将用户定义的函数降低到融合的FlashAttention内核中,并自动生成反向传播。它还支持利用注意力掩码中的稀疏性,从而显著提高性能。

阅读更多
未分类 FlexAttention