TorchFT: Fehlertolerantes LLM-Training bei extremen Ausfallraten

2025-06-27

Forscher nutzten TorchFT und TorchTitan, um ein Modell in einer realen Umgebung mit extrem hohen synthetischen Ausfallraten zu trainieren und so die Zuverlässigkeit und Korrektheit des fehlertoleranten Trainings zu beweisen. Selbst bei 1200 Ausfällen und ohne Checkpoints blieb der Trainingsverlust stabil. TorchFT verwendet einen globalen Lighthouse-Server und Manager pro Replikagruppe für die Echtzeitkoordination und implementiert verschiedene fehlertolerante Algorithmen wie fehlertolerantes HSDP und LocalSGD/DiLoCo. Experimentelle Ergebnisse zeigen, dass TorchFT selbst bei extrem hohen Ausfallraten das Modell effektiv trainiert und seine Robustheit bei der Bewältigung verschiedener Ausfallszenarien unter Beweis stellt.