TorchFT:在极端故障率下实现容错训练的LLM

2025-06-27

研究人员使用TorchFT和TorchTitan在一个真实的、具有极端合成故障率的环境中训练了一个模型,以证明容错训练的可靠性和正确性。即使在1200次故障且没有检查点的情况下,训练损失仍然保持稳定。TorchFT使用全局灯塔服务器和每个副本组管理器进行实时协调,并实现了多种容错算法,例如容错HSDP和LocalSGD/DiLoCo。实验结果表明,即使在极高的故障率下,TorchFT也能有效地进行模型训练,展现了其在应对各种故障场景下的强大能力。