TorchFT：在极端故障率下实现容错训练的LLM

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

TorchFT：在极端故障率下实现容错训练的LLM

2025-06-27

研究人员使用TorchFT和TorchTitan在一个真实的、具有极端合成故障率的环境中训练了一个模型，以证明容错训练的可靠性和正确性。即使在1200次故障且没有检查点的情况下，训练损失仍然保持稳定。TorchFT使用全局灯塔服务器和每个副本组管理器进行实时协调，并实现了多种容错算法，例如容错HSDP和LocalSGD/DiLoCo。实验结果表明，即使在极高的故障率下，TorchFT也能有效地进行模型训练，展现了其在应对各种故障场景下的强大能力。

(pytorch.org)

AI 容错训练 TorchFT

微软回应CrowdStrike事件：Windows安全增强，告别蓝屏死机？

开源应用监控SigNoz招募开发者布道师