TorchFT : Entraînement LLM tolérant aux pannes avec des taux de pannes extrêmes
Des chercheurs ont utilisé TorchFT et TorchTitan pour entraîner un modèle dans un environnement réel avec des taux de pannes synthétiques extrêmes afin de prouver la fiabilité et l'exactitude de l'entraînement tolérant aux pannes. Même avec 1200 pannes et sans points de contrôle, la perte d'entraînement est restée stable. TorchFT utilise un serveur Lighthouse global et des gestionnaires par groupe de réplicas pour la coordination en temps réel et implémente plusieurs algorithmes tolérants aux pannes, tels que le HSDP tolérant aux pannes et LocalSGD/DiLoCo. Les résultats expérimentaux montrent que, même avec des taux de pannes extrêmement élevés, TorchFT entraîne efficacement le modèle, démontrant sa robustesse dans la gestion de divers scénarios de pannes.