TorchFT: Fehlertolerantes LLM-Training bei extremen Ausfallraten

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

TorchFT: Fehlertolerantes LLM-Training bei extremen Ausfallraten

2025-06-27

Forscher nutzten TorchFT und TorchTitan, um ein Modell in einer realen Umgebung mit extrem hohen synthetischen Ausfallraten zu trainieren und so die Zuverlässigkeit und Korrektheit des fehlertoleranten Trainings zu beweisen. Selbst bei 1200 Ausfällen und ohne Checkpoints blieb der Trainingsverlust stabil. TorchFT verwendet einen globalen Lighthouse-Server und Manager pro Replikagruppe für die Echtzeitkoordination und implementiert verschiedene fehlertolerante Algorithmen wie fehlertolerantes HSDP und LocalSGD/DiLoCo. Experimentelle Ergebnisse zeigen, dass TorchFT selbst bei extrem hohen Ausfallraten das Modell effektiv trainiert und seine Robustheit bei der Bewältigung verschiedener Ausfallszenarien unter Beweis stellt.

(pytorch.org)

KI fehlertolerantes Training

Microsoft reagiert auf den CrowdStrike-Ausfall: Verbesserte Windows-Sicherheit, Abschied vom Bluescreen?

SigNoz: Gesucht: Developer Advocate für Open-Source-Anwendungsüberwachung